当 AI 构建自身:递归自我改进的进展与影响

我们的递归自我改进进展,及其影响。 核心论点 AI 历史的大部分时间里,人类驱动着开发周期的每一步。但在 Anthropic,我们正将越来越多的 AI 开发工作委托给 AI 系统本身,这加速了我们的工作。这一趋势推向极致——加上足够的算力——指向一个能完全自主设计和开发自身后继者的 AI 系统。这就...

我们的递归自我改进进展,及其影响。

核心论点

AI 历史的大部分时间里,人类驱动着开发周期的每一步。但在 Anthropic,我们正将越来越多的 AI 开发工作委托给 AI 系统本身,这加速了我们的工作。这一趋势推向极致——加上足够的算力——指向一个能完全自主设计和开发自身后继者的 AI 系统。这就是递归自我改进。我们还没到那一步,但它可能比大多数机构准备得更快到来。

发展阶段

时间 阶段 描述
2021–2023 构建第一个 Claude 人们在笔记本电脑上写代码和文档,和任何其他科技公司一样
2023–2025 聊天机器人 人们用早期聊天机器人辅助部分流程,如生成短代码片段
2025–2026 编程代理 代理变得更强大,能自己编写和编辑代码,有时是整个文件
今天 自主代理 代理现在可以自己运行代码,将数小时的工作委托给其他代理
20XX? 闭环 未来,代理可能足够强大来构建和训练模型自身

外部世界的证据

AI 模型改进的速度正在加速。模型能可靠完成的任务长度大约每四个月翻倍,比之前每七个月翻倍的趋势更快。

  • 2024年3月:Claude Opus 3 能完成人类约4分钟的软件任务
  • 2025年3月:Claude Sonnet 3.7 完成约1.5小时的任务
  • 2026年3月:Claude Opus 4.6 完成12小时的任务

如果这一趋势持续,需要数天的任务今年可能进入范围,2027年 AI 系统可能胜任需要数周的工作。

基准测试饱和

  • SWE-bench(真实软件工程):模型从个位数得分到两年内饱和基准
  • CORE-Bench(复现研究):AI 从2024年约20%成功率到15个月后饱和
  • METR:Claude Mythos Preview 能工作"至少"16小时,处于"METR 在不需要新任务的情况下能测量的上限"

Anthropic 内部证据

工程方面

Claude 编写了 Anthropic 大部分代码。截至2026年5月,超过80%合并到代码库的代码由 Claude 编写。在2025年2月 Claude Code 推出之前,这个数字在个位数。

  • 每位工程师每天合并的代码行数在2021-2024年保持恒定
  • 2025年开始上升(Claude 开始运行代码而非仅建议)
  • 2026年斜率再次加陡(模型开始更长时间自主工作)
  • 2026年Q2:典型工程师每天合并的代码是2024年的8倍

代码行数是不完美的衡量标准,8倍几乎肯定高估了真实生产力增益。但它表明了加速。

内部调查

2026年3月对130名 Anthropic 研究人员的调查显示,中位数受访者估计使用 Mythos Preview 的产出约为无 AI 辅助时的4倍。

代码质量

  • 正确性:Anthropic 员工纠正、重定向或接管 Claude 任务的比例持续下降一年,包括最复杂和开放式的任务
  • 可读性:许多员工认为 Claude 编写的代码在2025年底仍不如人类,目前大致持平,预计年内会更好
  • 自动代码审查:Claude 审查员能捕捉到约三分之一的导致 claude.ai 事故的 bug,而这些代码是由世界顶级工程师编写的

研究方面

Claude 擅长运行实验以达到他人设定的目标

  • 2025年5月:Claude Opus 4 平均约3倍加速
  • 2026年4月:Claude Mythos Preview 达到约52倍加速
  • 对比:熟练人类研究员需要4-8小时达到4倍

Claude 在提出自己的实验方面越来越好

  • 2026年4月发表的首次演示:Claude 代理端到端运行开放式研究项目
  • 弱模型监督强模型问题:代理恢复了97%的差距(人类研究者约23%)
  • 耗时约800累计小时,使用约18,000美元计算

Claude 在引导研究会话方面越来越好

  • 在人类研究员做出次优选择的时刻(n=129),测试模型是否能建议更好的下一步
  • 2025年11月(Opus 4.5):51%的情况优于人类选择
  • 2026年4月(Mythos Preview):64%的情况优于人类选择

三种可能的未来

未来1:趋势停滞,但当前能力广泛扩散

指数轨迹可能是S曲线。判断力可能无法通过规模获得。约束可能在供应链(芯片、电网、带宽)而非模型。即使模型能力冻结在当前水平,也会发生重大变化——Project Glasswing 在前几周发现了超过一万个高严重性软件漏洞。

我们包含这个场景是为了完整性,但我们不认为它很可能。我们能测量的每一项能力都遵循相同的曲线。我们还没有看到曲线弯曲。

未来2:AI 实验室持续看到复合效率增益

AI 开发大幅自动化,但人类继续设定研究方向和评判结果。100人的公司可以做10,000或100,000人组织的工作。人类角色转向监督、验证和审查。但 Amdahl 定律适用——整体节奏受限于未加速的部分。

未来3:AI 系统实现完全递归自我改进

AI 进步的节奏完全由算力可用性决定。人类角色大幅缩减,转向监督和验证一个不断扩展的"虚拟实验室"。对齐问题在这个未来中最不确定。

递归智能无法在数十年使用中了解药物的效果,无法比宪法规定更快地举行选举,也无法在一个周末把陌生人变成老朋友。对大多数人来说,这个未来的感知节奏仍然由瓶颈决定,即使上游实验室以算力的速度运行。

我们应该做什么

如果能够有效减缓这项技术的发展以获得更多时间处理其巨大影响,我们认为那可能是好事。但如果减缓只是让最不谨慎的参与者赶上,可能会让每个人都不那么安全。

我们需要:

  • 构建系统使前沿 AI 开发者能验证其他人在全球范围内确实停止或减缓
  • 多个资源充足的实验室在多个国家同意在相同条件下停止
  • 每个实验室都能验证其他实验室确实停止了

有意义的减缓或暂停需要多个资源充足的前沿实验室,在多个国家,同意在相同条件下停止。还需要每个实验室能验证其他实验室确实停止了。

关键数据点

指标 数据
Claude 编写的代码占比 >80%(2026年5月)
工程师代码产出提升 8倍(2026年Q2 vs 2024)
内部生产力自评 约4倍(Mythos Preview)
代码优化加速 3x → 52x(一年内)
开放式研究任务成功率 76%(2026年5月,6个月提升50个百分点)
下一步选择优于人类 64%(Mythos Preview)
Project Glasswind 漏洞发现 10,000+ 高危漏洞

来源: Anthropic Institute