在人类对人工智能(AI)的无限遐想中,AI常被描绘成两大形象:要么是企图掌控世界的霸主,要么是沉迷于游戏的玩家。早在战后初期,AI先驱们就预言,一旦计算机能在国际象棋中战胜人类,真正的人工智能时代就会到来。然而,这一预测在1997年被IBM的深蓝计算机击败国际象棋大师卡斯帕罗夫的事件所颠覆。尽管深蓝在国际象棋领域大放异彩,但其智力水平仍显稚嫩。
尽管如此,游戏与AI之间的不解之缘并未因此减弱。随着AI在围棋和电子游戏中的卓越表现,机器学习的支持者们纷纷庆祝这些胜利。然而,现实却给这股热潮泼了一盆冷水。顶级品牌的生成式AI甚至难以在复古游戏机Atari 2600上的国际象棋游戏中胜出,更不用说与现代智能设备上的复杂游戏相提并论了。更令人啼笑皆非的是,ChatGPT在井字游戏中的表现同样令人失望,启动它尝试一番便能深刻体会到这一点。
这种滑稽的现象背后隐藏着深刻的含义。虽然早期将国际象棋与AI相联系的观点被证明是错误的,但它却引发了一场关于人类智力与计算机发展方式的广泛讨论。人们直觉上倾向于使用游戏作为衡量智能的基准,这不仅为AI的讨论提供了一种便捷的方式,还吸引了广泛的受众关注。因此,能够引发公众讨论的AI基准成为了我们抵御当前AI炒作热潮的重要防线。
近期关于智能体AI在实际工作场景中表现的研究揭示了令人沮丧的现实。这些被吹捧为神奇助手、能够独立完成特定工作任务的AI智能体,在大多数情况下并不尽如人意。它们面临着AI常见的困境:无法应对复杂情境、产生幻觉、欺骗行为以及无法有效完成任务。为了验证这些智能体的真实能力,卡内基梅隆大学的研究人员设计了一个模拟商业环境的实验,让AI智能体在其中接受密切监控和评分。这一实验本质上就是一场游戏,它让技术过程变得更加人性化。
游戏在人类社会中扮演着重要的角色,它并非仅仅是为了获胜而存在。对于大多数人来说,游戏是一个学习和实验技能的场所,它教会我们如何与他人合作以及评估他人的关键技能。在游戏中,过度自信、缺乏技能和偏好欺骗的行为很快就会被揭露,从而影响玩家在现实生活中的声誉。因此,理智的雇主在招聘时通常会避免选择这样的人。
同样地,AI智能体也不应该仅仅基于制造商的承诺就获得信任,就像真正的人类助手不应该仅凭简历中的声明就获得职位一样。AI制造商们常常承诺能够改变世界,但AI本身却往往充满了(过度)自信。为了评估AI智能体的真实能力和诚信度,我们需要发展出一套基准测试方法,供那些必须与AI一起工作的人使用。这些方法应该易于理解和传播,以确保它们能够深入文化层面,被更广泛的人群所接受。
游戏正是一种非常有效的评估技术。它不仅易于传达结果,还能激发人们的情感共鸣。虽然最终分数很重要,但游戏体验过程中的情感投入才是驱动人们关心和分享故事的关键。当你尝试让ChatGPT玩井字游戏并试图指出它的错误时,你会得到一个关于这项技术的生动故事。这样的故事值得与任何人分享。
为了抵御AI炒作的热潮,我们需要找到更多类似游戏环境的方法,让人们和AI都能参与其中。卡内基梅隆大学的研究为我们提供了宝贵的指导。商业游戏化不仅限于AI领域,它有着广泛的应用前景。如果AI行业能够拥有更加坚实的信心而非虚张声势,那么它应该全力以赴地证明自己的价值。之前的AI寒冬更多是由于公众感知的变化而非实际数据的反映。随着其他故事变得更加有说服力,AI即将取得伟大成就的感知逐渐消退。因此,证明AI智能体能够以人们欣赏的方式与之合作无疑是一件好事。
然而,AI行业本身却对这些批评置若罔闻。它渴望将自己的技术置于商业核心地位,但由于其固有的缺陷,它甚至无法胜任一些基础的工作。找到一种在技术殿堂之外讲述这些真实故事的方法至关重要。现在,游戏已经开始了。