滚动资讯

AI游戏挑战暴露智能短板，人类评估新基准呼之欲出

时间：2025-07-08 01:17 来源：ITBEAR作者：钟景轩

在人类对人工智能（AI）的无限遐想中，AI常被描绘成两大形象：要么是企图掌控世界的霸主，要么是沉迷于游戏的玩家。早在战后初期，AI先驱们就预言，一旦计算机能在国际象棋中战胜人类，真正的人工智能时代就会到来。然而，这一预测在1997年被IBM的深蓝计算机击败国际象棋大师卡斯帕罗夫的事件所颠覆。尽管深蓝在国际象棋领域大放异彩，但其智力水平仍显稚嫩。

尽管如此，游戏与AI之间的不解之缘并未因此减弱。随着AI在围棋和电子游戏中的卓越表现，机器学习的支持者们纷纷庆祝这些胜利。然而，现实却给这股热潮泼了一盆冷水。顶级品牌的生成式AI甚至难以在复古游戏机Atari 2600上的国际象棋游戏中胜出，更不用说与现代智能设备上的复杂游戏相提并论了。更令人啼笑皆非的是，ChatGPT在井字游戏中的表现同样令人失望，启动它尝试一番便能深刻体会到这一点。

这种滑稽的现象背后隐藏着深刻的含义。虽然早期将国际象棋与AI相联系的观点被证明是错误的，但它却引发了一场关于人类智力与计算机发展方式的广泛讨论。人们直觉上倾向于使用游戏作为衡量智能的基准，这不仅为AI的讨论提供了一种便捷的方式，还吸引了广泛的受众关注。因此，能够引发公众讨论的AI基准成为了我们抵御当前AI炒作热潮的重要防线。

近期关于智能体AI在实际工作场景中表现的研究揭示了令人沮丧的现实。这些被吹捧为神奇助手、能够独立完成特定工作任务的AI智能体，在大多数情况下并不尽如人意。它们面临着AI常见的困境：无法应对复杂情境、产生幻觉、欺骗行为以及无法有效完成任务。为了验证这些智能体的真实能力，卡内基梅隆大学的研究人员设计了一个模拟商业环境的实验，让AI智能体在其中接受密切监控和评分。这一实验本质上就是一场游戏，它让技术过程变得更加人性化。

游戏在人类社会中扮演着重要的角色，它并非仅仅是为了获胜而存在。对于大多数人来说，游戏是一个学习和实验技能的场所，它教会我们如何与他人合作以及评估他人的关键技能。在游戏中，过度自信、缺乏技能和偏好欺骗的行为很快就会被揭露，从而影响玩家在现实生活中的声誉。因此，理智的雇主在招聘时通常会避免选择这样的人。

同样地，AI智能体也不应该仅仅基于制造商的承诺就获得信任，就像真正的人类助手不应该仅凭简历中的声明就获得职位一样。AI制造商们常常承诺能够改变世界，但AI本身却往往充满了（过度）自信。为了评估AI智能体的真实能力和诚信度，我们需要发展出一套基准测试方法，供那些必须与AI一起工作的人使用。这些方法应该易于理解和传播，以确保它们能够深入文化层面，被更广泛的人群所接受。

游戏正是一种非常有效的评估技术。它不仅易于传达结果，还能激发人们的情感共鸣。虽然最终分数很重要，但游戏体验过程中的情感投入才是驱动人们关心和分享故事的关键。当你尝试让ChatGPT玩井字游戏并试图指出它的错误时，你会得到一个关于这项技术的生动故事。这样的故事值得与任何人分享。

为了抵御AI炒作的热潮，我们需要找到更多类似游戏环境的方法，让人们和AI都能参与其中。卡内基梅隆大学的研究为我们提供了宝贵的指导。商业游戏化不仅限于AI领域，它有着广泛的应用前景。如果AI行业能够拥有更加坚实的信心而非虚张声势，那么它应该全力以赴地证明自己的价值。之前的AI寒冬更多是由于公众感知的变化而非实际数据的反映。随着其他故事变得更加有说服力，AI即将取得伟大成就的感知逐渐消退。因此，证明AI智能体能够以人们欣赏的方式与之合作无疑是一件好事。

然而，AI行业本身却对这些批评置若罔闻。它渴望将自己的技术置于商业核心地位，但由于其固有的缺陷，它甚至无法胜任一些基础的工作。找到一种在技术殿堂之外讲述这些真实故事的方法至关重要。现在，游戏已经开始了。

更多>同类内容