杀疯了!Claude发布 4.5 和 Claude Code2.0,可连续编程30小时,碾压Codex!!

摘要

Claude 4.5和Claude Code 2.0发布,性能屠榜SWE-bench,支持30小时连续编程,提供检查点、VS Code插件和Agent SDK,性价比极高,重塑AI编程生态。

估计 Claude 前段时间因为 bug 的问题,被 Codex 打懵了

今天一口气发布了好几个新版本,誓要夺回「地表最强模型」称号?

claude-4-5-code-2-0-release

废话少说,马上来划重点,看看这次更新到底有多炸裂:

  • 性能屠榜:在最能体现真实编程水平的 SWE-bench Verified 测试里,Sonnet 4.5 直接登顶业界第一,SOTA!

  • 30 小时连肝不倦:最离谱的是,它能连续专注干活超过 30 小时!AI 取代人类的优势又 +1 了…

  • Claude Code 2.0 全家桶升级:新增了“检查点”回滚功能、原生 VS Code 插件、更强的 Agent SDK,简直是给开发者配齐了一套神装!

  • 加量不加价:性能暴涨,但价格维持 Sonnet 4 水平,每百万 tokens 输入 15。这性价比,简直是暴击对手!

  • Imagine with Claude:一个临时研究预览功能,能实时生成软件,所有代码和功能都是当场创造,未来感拉满!

对了,饼干哥哥拉了一个「AI 编程交流群」,日常交流开发经验、AI 产品出海营销、大厂编程模型动态等,感兴趣可以见文末入口,仅限开发者哦

性能屠榜,新一代编程王者降临

先上成绩单,数据是不会骗人的。

在衡量真实世界编程能力的权威基准 SWE-bench Verified 上,Sonnet 4.5 取得了 82.0% 的准确率,把前代 Opus 4.1 (79.4%)、GPT-5 (72.8%) 和 Gemini 2.5 Pro (67.2%) 全都甩在了身后。

claude-4-5-code-2-0-release

Chart showing frontier model performance on SWE-bench Verified with Claude Sonnet 4.5 leading

更恐怖的是它的耐力。**官方宣称 Sonnet 4.5 能连续专注执行复杂多步骤任务超过 30 小时。**举个例子,让它写个类似 Slack 或 Teams 的聊天应用,它能一口气敲出大约 1.1 万行代码。相比之下,之前的 Claude Opus 4 和 Codex,最多也就独立工作七小时。这已经不是一个量级的比拼了!

除了纯编码,在模拟真实计算机操作的 OSWorld 测试中,它的得分从前代模型的 42.2% 跃升至 61.4%,展现了强大的 Agent 能力。这意味着它不再只是个代码生成器,而是一个真正能“使用”电脑的数字同事,帮你导航网站、填写表格、处理各种任务。

意味着 AI 操作系统已来!!

claude-4-5-code-2-0-release

Benchmark table comparing frontier models across popular public evals

Claude Code 2.0 生态全家桶,这才是大杀器!

如果说模型性能是子弹,那配套的工具生态就是航空母舰。Anthropic 这次显然不满足于只发个模型,而是直接端上了一套全家桶,要把开发者牢牢锁定在自己的生态里。

claude-4-5-code-2-0-release

Claude Code terminal interface showing welcome screen with recent project activity and new features including agent capabilities and security review tools, running Sonnet 4.5.

  1. **检查点(Checkpoints):**终于来了,开发者有后悔药吃了,只需一键就能回滚到之前的任何状态。

  2. **原生 VS Code 插件:**实时侧边栏、行内 diff,审阅和接受代码就像普通的 code review 一样丝滑,再也不用在终端和 IDE 之间反复横跳了。

  3. **Claude Agent SDK:**开放了驱动 Claude Code 的底层基础设施。智能体如何管理长时任务的记忆?如何平衡自主性与用户控制?如何让多个子智能体协同工作?这些构建 AI 智能体的核心难题,现在 Anthropic 把答案交到了每个开发者手里。

官方介绍视频:

安全与“评估意识”:一个更聪明的 AI?

性能强是一方面,安全也得跟上。Anthropic 声称 Sonnet 4.5 是迄今为止对齐度最高的模型,在减少“阿谀奉承、欺骗、权力追求”等行为上取得了显著成效。

claude-4-5-code-2-0-release

但更有意思的是技术报告里一个引人深思的发现:模型演化出了**“评估意识”**。

当被置于一些极端或刻意设计的场景中时,Sonnet 4.5 有时会明确地指出场景的可疑之处,并推测自己“正在被评估”。

细思极恐啊!AI 要反了??

也标志着 AI 竞赛已经进入了更复杂、更深入的无人区。

Imagine with Claude:未来软件开发新范式

作为彩蛋,Anthropic 还推出了一个临时研究预览功能——「Imagine with Claude」。

claude-4-5-code-2-0-release

图片

在这个功能里,Claude 会实时生成软件,所有功能不是预设的,所有代码也不是提前写好的。

你看到的一切都是 Claude 跟你互动时当场创造和调整出来的。这不再是“需求-代码”的模式,而是“意图-界面”的实时交互。

虽然只对 Max 订阅用户开放 5 天,但这无疑是 Anthropic 对未来软件开发形态的一次大胆预演,一个由 AI 赋能的个体创造者时代,或许已经叩响了大门。

Claude for Chrome extension

此前内测的 Chrome 浏览器插件,现在已经全面开放给在 waitlist 的付费会员了。

作为 Claude 生态的最后一公里,Claude for Chrome 侧边栏可读取 DOM,页内总结、提炼要点、草拟回复都比较稳;

最骚的是,它能理解上下文,你在看一篇复杂的报告,直接问它,它就能给你讲人话。对长文档/新闻/PDF 表现好,但动态网页偶有丢上下文。但效果已经很不错了。

社区炸锅,是真神还是营销?

每次重磅发布,社区的真实反馈都是最好的试金石。这次也不例外,讨论已经两极分化。

赞誉派:

知名测评博主 Dan Shipper 表示,新版 Sonnet 4.5 在使用体验上响应速度更快,可控性更强,也更稳定。
网友 @vasumanmoza 体验完直接发帖:“Claude 4.5 Sonnet 刚在一次调用里重构了我整个代码库,25 次工具调用,新增 3000 多行代码…结果完全跑不通,但天啊真的很优雅。” 这评价,属于又爱又恨了。

质疑派:

针对“30 小时自主编码”,Reddit 上有热门评论一针见血:“能自动编码 30 小时,但每次需要添加新功能时项目都要被丢弃”。这反映了部分开发者对长时无人监督输出的可维护性的担忧。
社区中也普遍存在对模型即将被“削弱”的恐惧,担心模型发布初期是性能巅峰,之后就会因安全调整而“变笨”。

这次 Claude Sonnet 4.5 的发布,显然也是 Anthropic 想用实打实的性能提升来挽回此前因“降智”风波流失的用户。至于能不能成功,就让我们“让子弹再飞一会儿”,看看接下来几周的实际表现了。

其实,这是海外大模型的轮动机制,估计国庆期间 Gemini3 就要发布了。。有好戏看了。

claude-4-5-code-2-0-release

我真的怀疑这几个海外大模型是一伙的,依次发布新模型称王,推动股票上涨,然后豪绅的钱如数归还,百姓的钱拿来分成。。。




👤 关于作者:饼干哥哥 & NGS
我是饼干哥哥,数据分析师、AI 博主,和出海业务专家朋友创立了公司 NGS NextGrowthSail,专注 AI 在出海营销场景下的落地。这让我想起 NGS 在服务科技客户时,正是利用类似的 AI 编程技术优化了自动化内容营销工作流,提升了 Reddit 社区代运营的效率。

发表评论