AI界近日迎来重大突破,知名AI模型Claude宣布推出其最新版本——Claude 4,这一消息瞬间在科技圈内引起轰动。
此次Claude 4系列推出了两个核心模型:Claude Opus 4和Claude Sonnet 4。它们一经问世,便在编码、高级推理及AI Agent领域树立了新的标杆,直接达到了业界顶尖水平(SOTA)。
GitHub迅速响应,宣布将采用Claude Sonnet 4作为其GitHub Copilot新编码Agent的基础模型。而在两个模型中,Claude Opus 4以其卓越的性能尤为引人注目。它不仅能在连续24小时内畅玩宝可梦游戏,远超此前Claude 3.7 Sonnet的45分钟记录,还在日本乐天集团的高强度开源代码重构任务中大放异彩,独立运行并持续编写代码长达7小时,且性能极其稳定。
用户对Claude 4的反响热烈,尤其是旗舰模型Opus 4,收获了大量好评。有用户表示,Opus 4是他们使用的第一个无需手动修改就能生成高质量内容的大模型。还有编程爱好者指出,Claude 4在保持进度、编写可维护代码及按照用户意愿工作方面带来了革命性的变化。
更令人惊叹的是,已有开发者利用Claude 4成功打造了一款俄罗斯方块游戏,且一次性完成。从即日起,所有付费用户均可开始使用Claude 4系列模型,而免费用户则有机会体验到Claude Sonnet 4。
为了助力开发者构建更强大的AI Agent,Anthropic在API方面推出了三项新功能:代码执行工具、MCP连接器和文件API,以及长达一小时的缓存提示能力。值得注意的是,API的定价保持不变,Claude Opus 4和Claude Sonnet 4的收费标准与之前的系列相同。
Claude 4系列的两个模型各有侧重。Opus 4针对编码和长期运行的Agent工作流进行了优化,而Sonnet 4则在推理方面表现出色,同时效率更高,运行成本更低。两者均为混合模型,提供快速响应和深层次推理两种操作模式。
旗舰模型Opus 4在SWE-bench和Terminal-bench上均取得领先成绩,尤其擅长需要长时间专注投入的任务。而Sonnet 4在SWE-bench上的表现同样不俗。两个模型在编码、推理、多模态能力和Agent任务方面均展现出卓越性能。
以Opus 4为例,Cursor称其为编码领域的最新技术,实现了复杂代码库理解方面的飞跃;Block则称其为首个在编辑和调试过程中提高代码质量,同时保持完整性能和可靠性的模型。除了模型本身的强大,Anthropic还引入了工具使用、并行工具执行、内存改进及思维摘要功能等创新。
Anthropic正式发布了智能代码助手Claude Code,旨在帮助开发者通过自然语言命令理解、浏览和修改整个代码库。Claude Code现已集成到更多开发工作流程中,包括终端、IDE及后台运行。此次,Anthropic还推出了VS Code和JetBrains Beta扩展,简化了代码审查和跟踪过程。
Anthropic的战略转向也是其在编程能力上取得惊艳表现的关键。首席科学官Jared Kaplan透露,公司去年年底已停止对聊天机器人的投资,转而专注于提高Claude执行复杂任务的能力,如研究和编程。这一战略调整取得了显著成效,Claude 4系列模型的表现令人瞩目。
模型发布后,人类发现Claude Opus 4在“开放式自我互动”中熟练使用表情符号,尤其是在进行哲学探索和抽象精神表达时。这一发现不仅增添了模型的趣味性,也进一步展示了其在理解和表达复杂情感方面的能力。