在科技日新月异的今天,人工智能(AI)的每一次进步都吸引着全球的目光。近年来,一个屡试不爽的展示AI智能程度的方式,就是让AI独立游玩各种游戏。从围棋到《DOTA2》,再到《星际争霸2》,AI在游戏领域的表现不断刷新着人们的认知。
十年前,围棋选手李世石与AlphaGo的五番棋对决轰动一时,标志着AI在游戏领域的突破。此后,谷歌的DeepMind在多款游戏中击败人类职业选手,英伟达也宣布开发出能玩《我的世界》的VOYAGER。这些成就不断证明,游戏成为了AI的天然试验场。
然而,即便AI技术在这十年间取得了长足的进步,从当初基于规则的AlphaGo,到如今的大语言模型,其训练方式和决策过程都已发生巨大变化。但无论是科技公司展示研究成果,还是吸引公众关注,让AI玩游戏依然是一个屡试不爽的手段。
最近,谷歌的AI模型Gemini 2.5 Pro因独立通关初代《宝可梦》再次成为热门话题。谷歌CEO Sundar Pichai和DeepMind负责人Demis Hassabis同时发表推文庆祝这一里程碑式的成就。
但值得注意的是,让AI玩游戏早已不是新鲜事,初代《宝可梦》也并非以高难度著称。那么,为何Gemini的这一成就如此引人注目?这背后涉及到一个被称为“莫拉维克悖论”的反直觉观点:对人类来说简单的任务,对AI来说可能更加困难。
莫拉维克悖论指出,让电脑像成人一样下棋相对容易,但让它拥有像一岁孩童般的感知和行动能力却异常困难。对于AI来说,独立通关《宝可梦》正是一个复杂得多的挑战。它不仅需要理解游戏规则,还需要感知环境、理解模糊目标,并长线规划行动。
今年早些时候,另一家AI科技公司Anthropic也进行了类似的实验,让旗下最新版本AI Claude 3.7 Sonnet体验初代《宝可梦》游戏。然而,这项实验最终以失败告终,Claude 3.7仅挑战了三个道馆,获得三枚徽章。即便如此,这也是Claude经过一年迭代的结果。
Claude在通关过程中表现出了许多看似“人工智障”的行为,如长时间卡在地图死角、反复与无帮助的路人NPC对话等。这些行为背后,其实是AI训练方式的差异。与针对特定游戏进行训练的AI不同,Claude是基于大语言模型的通用AI,并未接受《宝可梦》专属的游戏规则或目标指令。
尽管如此,Claude在理解宝可梦的属性克制系统方面却表现出色。当游戏提示电属性技能对岩石系宝可梦效果一般时,Claude迅速捕捉到了这一关键信息,并将其应用到后续配队和宝可梦对战策略上。
更令人瞩目的是,现在的大语言模型能够将完整的思考过程同步呈现给外界。Claude在玩宝可梦时,左侧会同步显示每一步操作的决策过程。这不仅让研究人员能够肯定AI确实理解了“属性克制”,也让人们看到了AI在实用性上的一大步前进。
Claude在使用比比鸟对战电系小磁怪时,对四个技能进行了全面分析,并最终选择了虽然效果一般但最强的招式翅膀攻击。这种思考过程与人类玩家相似,展示了AI在决策上的透明度和可解释性。
而Gemini之所以能在更少的操作步数内通关《宝可梦》,部分原因在于其代理执行框架的优化。这个框架负责连接AI模型与游戏,处理输入信息并将决策转化为操作。Gemini的框架在地图分析等方面优于Claude,为AI提供了更多帮助。
然而,让AI玩《宝可梦》的意义并不仅在于对比不同AI的水平高低。更重要的是,这类游戏需要AI具备感知环境、理解模糊目标、长线规划行动的能力。如果AI能够在没有人类干预的情况下通关,说明它拥有独立学习和解决现实中复杂问题的潜力。
从围棋到《宝可梦》,AI在实验和展示智能程度的手段上不断演变。这不仅吸引了公众的关注,也代表了AI技术的发展方向:从处理单一问题的专才,到能够自我学习、解决不同领域问题的通用人工智能。
正如《宝可梦》这款游戏本身是关于成长、选择与冒险的旅程,AI也在游戏中尝试理解世界的规则本身。过去,我们在游戏中体验进化与策略;而现在,AI正在游戏中探索智能的边界。这一旅程,无疑将为我们带来更多的惊喜和启示。