一支由英伟达、斯坦福大学和加州理工学院等机构科研人员组成的跨学科团队,近日推出了一款名为NitroGen的开源基础模型。这款模型突破了传统大型语言模型(LLM)的边界,不仅具备操控1000余款电子游戏的能力,更在仿真技术和机器人领域展现出重要潜力。英伟达人工智能总监吉姆·范在社交平台透露,NitroGen的研发标志着"行动版GPT"概念向现实迈出了关键一步。
研究团队在论文中强调,构建能在未知环境中自主运行的通用具身智能体,始终是人工智能领域的核心挑战。NitroGen的独特之处在于其底层架构GROOT N1.5——这个专为机器人技术设计的框架,通过游戏场景的强化训练,意外发现了跨领域应用的突破口。实验数据显示,在程序生成的游戏世界和全新环境中,该模型的任务完成率较传统训练方式提升52%,展现出强大的环境适应能力。
模型训练过程充分利用了游戏产业的独特资源。研究人员收集了超过4万小时的游戏直播视频,重点筛选那些同步显示玩家手柄操作的画面。这些包含实时操作轨迹的素材,为模型理解复杂动作逻辑提供了关键数据支撑。吉姆·范特别指出:"从角色扮演到竞速游戏,从2D平台跳跃到3D大逃杀,NitroGen在测试中展现了惊人的泛化能力,这验证了快速动作控制策略的有效性。"
目前所有研究成果已向全球开发者开放,包括预训练模型权重、完整动作数据集和源代码。这种开源策略旨在激发更多创新应用,特别是在机器人控制领域。研究团队认为,游戏场景中培养的"玩家直觉",有望帮助机器人更好地应对现实世界的复杂环境。吉姆·范坦言:"虽然当前成果令人振奋,但这仅仅是探索通用智能的起点,未来需要更多跨学科合作来突破现有局限。"
该模型在机器人领域的潜在价值已引发广泛关注。通过游戏训练获得的实时决策能力,可能为仓储物流、灾难救援等场景中的自动化设备提供新的解决方案。随着开源社区的参与,NitroGen有望催生出更多意想不到的技术融合应用,推动人工智能向更广泛的实体世界渗透。












