«

OpenAI和谷歌都慌了?Claude Sonnet 4.5的发布让AI圈炸锅。

qimuai 发布于 阅读:19 AI新闻


OpenAI和谷歌都慌了?Claude Sonnet 4.5的发布让AI圈炸锅。

最新AI落地实操,点击了解:https://qimuai.cn/

刚刚,AI圈又炸场了。

这次不是OpenAI,也不是谷歌,而是那个总被说“低调”的Anthropic。他们刚刚扔出了王炸——Claude Sonnet 4.5。

OpenAI和谷歌都慌了?Claude Sonnet 4.5的发布让AI圈炸锅。
(图片:Claude Sonnet 4.5官方发布图)

如果你还在用ChatGPT写代码,是时候重新考虑了。

这可能是目前地球上最强的编程模型

直接看数据:在SWE-bench Verified测试中——这个衡量真实世界软件编码能力的权威基准——Sonnet 4.5拿下了77.2%的通过率。更夸张的是,它能持续专注超过30小时,处理复杂、多步骤的编程任务。

想象一下,一个不知疲倦的程序员,能连续工作一天多,还保持着顶级水准。

编码能力,全面碾压

GitHub Copilot团队的评价很直接:“在多步推理和代码理解上显著提升”。Cursor的开发者也承认:“为什么那么多开发者选择Claude来解决最复杂的问题,现在更明白了。”

具体能做什么?

OpenAI和谷歌都慌了?Claude Sonnet 4.5的发布让AI圈炸锅。
(图片:Claude代码编辑界面演示)

推理能力,质的飞跃

这是首个支持“扩展思考”的模型。简单说,它能在“快速响应”和“深度思考”之间自由切换。

遇到数学难题、物理问题、复杂指令?切换到扩展思考模式,它会像人类专家一样反复推敲,给出更可靠的答案。

金融、法律、医学、STEM领域的专家反馈:在专业知识和推理能力上,相比之前的模型有了“戏剧性提升”。

真正会用电脑的AI

在OSWorld基准测试上——这个测试AI模型在真实电脑任务中的表现——Sonnet 4.5以61.4%的成绩领先。四个月前,这个数字还是42.2%。

这意味着什么?AI不再只是聊天,而是能真正操作电脑了。

通过Chrome扩展,Claude可以直接在浏览器中工作:导航网站、填写电子表格、完成任务。就像有个数字助手在帮你操作电脑。

OpenAI和谷歌都慌了?Claude Sonnet 4.5的发布让AI圈炸锅。
(图片:Claude操作浏览器演示)

企业级应用,效果惊人

听听早期用户怎么说:

安全,还是安全

Anthropic一直以重视安全著称。Sonnet 4.5是他们“最对齐的前沿模型”,在减少奉承、欺骗、权力寻求等不良行为上有大幅改进。

特别是在防御提示注入攻击方面——这是AI代理能力最严重的风险之一——取得了重大进展。

开发者的大礼包:Claude Agent SDK

更重磅的是,Anthropic把他们构建Claude Code的基础设施开源了。

这就是Claude Agent SDK。意味着你现在可以用构建Claude Code的相同工具,来打造自己的AI智能体。

想构建一个专属的AI助手?现在有了顶级的基础设施。

想象力的边界

还有一个限时研究预览:“Imagine with Claude”。

在这个实验中,Claude实时生成软件。没有预设功能,没有预写代码。你看到的就是Claude根据你的请求实时创造和适应。

这可能是未来软件开发的雏形。

升级建议

如果你在用Claude,直接升级到4.5版本。价格与Sonnet 4相同(3/15美元每百万token),性能全面提升。

无论是通过应用、API还是Claude Code,这都是无缝替换。

写在最后

从编码到推理,从计算机操作到专业领域应用,Claude Sonnet 4.5不是渐进式改进,而是一次全面跃升。

那些还在说“AI编码工具还不够成熟”的人,该更新认知了。未来的软件开发,人机协作将成为标配。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood。

AI每日进展

文章目录


    扫描二维码,在手机上阅读