2026年6月6日 · 5 分钟阅读

当 AI 构建自身：递归自我改进的进展与影响

我们的递归自我改进进展，及其影响。核心论点 AI 历史的大部分时间里，人类驱动着开发周期的每一步。但在 Anthropic，我们正将越来越多的 AI 开发工作委托给 AI 系统本身，这加速了我们的工作。这一趋势推向极致——加上足够的算力——指向一个能完全自主设计和开发自身后继者的 AI 系统。这就...

我们的递归自我改进进展，及其影响。

核心论点

AI 历史的大部分时间里，人类驱动着开发周期的每一步。但在 Anthropic，我们正将越来越多的 AI 开发工作委托给 AI 系统本身，这加速了我们的工作。这一趋势推向极致——加上足够的算力——指向一个能完全自主设计和开发自身后继者的 AI 系统。这就是递归自我改进。我们还没到那一步，但它可能比大多数机构准备得更快到来。

发展阶段

时间	阶段	描述
2021–2023	构建第一个 Claude	人们在笔记本电脑上写代码和文档，和任何其他科技公司一样
2023–2025	聊天机器人	人们用早期聊天机器人辅助部分流程，如生成短代码片段
2025–2026	编程代理	代理变得更强大，能自己编写和编辑代码，有时是整个文件
今天	自主代理	代理现在可以自己运行代码，将数小时的工作委托给其他代理
20XX?	闭环	未来，代理可能足够强大来构建和训练模型自身

外部世界的证据

AI 模型改进的速度正在加速。模型能可靠完成的任务长度大约每四个月翻倍，比之前每七个月翻倍的趋势更快。

2024年3月：Claude Opus 3 能完成人类约4分钟的软件任务
2025年3月：Claude Sonnet 3.7 完成约1.5小时的任务
2026年3月：Claude Opus 4.6 完成12小时的任务

如果这一趋势持续，需要数天的任务今年可能进入范围，2027年 AI 系统可能胜任需要数周的工作。

基准测试饱和

SWE-bench（真实软件工程）：模型从个位数得分到两年内饱和基准
CORE-Bench（复现研究）：AI 从2024年约20%成功率到15个月后饱和
METR：Claude Mythos Preview 能工作"至少"16小时，处于"METR 在不需要新任务的情况下能测量的上限"

Anthropic 内部证据

工程方面

Claude 编写了 Anthropic 大部分代码。截至2026年5月，超过80%合并到代码库的代码由 Claude 编写。在2025年2月 Claude Code 推出之前，这个数字在个位数。

每位工程师每天合并的代码行数在2021-2024年保持恒定
2025年开始上升（Claude 开始运行代码而非仅建议）
2026年斜率再次加陡（模型开始更长时间自主工作）
2026年Q2：典型工程师每天合并的代码是2024年的8倍

代码行数是不完美的衡量标准，8倍几乎肯定高估了真实生产力增益。但它表明了加速。

内部调查

2026年3月对130名 Anthropic 研究人员的调查显示，中位数受访者估计使用 Mythos Preview 的产出约为无 AI 辅助时的4倍。

代码质量

正确性：Anthropic 员工纠正、重定向或接管 Claude 任务的比例持续下降一年，包括最复杂和开放式的任务
可读性：许多员工认为 Claude 编写的代码在2025年底仍不如人类，目前大致持平，预计年内会更好
自动代码审查：Claude 审查员能捕捉到约三分之一的导致 claude.ai 事故的 bug，而这些代码是由世界顶级工程师编写的

研究方面

Claude 擅长运行实验以达到他人设定的目标：

2025年5月：Claude Opus 4 平均约3倍加速
2026年4月：Claude Mythos Preview 达到约52倍加速
对比：熟练人类研究员需要4-8小时达到4倍

Claude 在提出自己的实验方面越来越好：

2026年4月发表的首次演示：Claude 代理端到端运行开放式研究项目
弱模型监督强模型问题：代理恢复了97%的差距（人类研究者约23%）
耗时约800累计小时，使用约18,000美元计算

Claude 在引导研究会话方面越来越好：

在人类研究员做出次优选择的时刻（n=129），测试模型是否能建议更好的下一步
2025年11月（Opus 4.5）：51%的情况优于人类选择
2026年4月（Mythos Preview）：64%的情况优于人类选择

三种可能的未来

未来1：趋势停滞，但当前能力广泛扩散

指数轨迹可能是S曲线。判断力可能无法通过规模获得。约束可能在供应链（芯片、电网、带宽）而非模型。即使模型能力冻结在当前水平，也会发生重大变化——Project Glasswing 在前几周发现了超过一万个高严重性软件漏洞。

我们包含这个场景是为了完整性，但我们不认为它很可能。我们能测量的每一项能力都遵循相同的曲线。我们还没有看到曲线弯曲。

未来2：AI 实验室持续看到复合效率增益

AI 开发大幅自动化，但人类继续设定研究方向和评判结果。100人的公司可以做10,000或100,000人组织的工作。人类角色转向监督、验证和审查。但 Amdahl 定律适用——整体节奏受限于未加速的部分。

未来3：AI 系统实现完全递归自我改进

AI 进步的节奏完全由算力可用性决定。人类角色大幅缩减，转向监督和验证一个不断扩展的"虚拟实验室"。对齐问题在这个未来中最不确定。

递归智能无法在数十年使用中了解药物的效果，无法比宪法规定更快地举行选举，也无法在一个周末把陌生人变成老朋友。对大多数人来说，这个未来的感知节奏仍然由瓶颈决定，即使上游实验室以算力的速度运行。

我们应该做什么

如果能够有效减缓这项技术的发展以获得更多时间处理其巨大影响，我们认为那可能是好事。但如果减缓只是让最不谨慎的参与者赶上，可能会让每个人都不那么安全。

我们需要：

构建系统使前沿 AI 开发者能验证其他人在全球范围内确实停止或减缓
多个资源充足的实验室在多个国家同意在相同条件下停止
每个实验室都能验证其他实验室确实停止了

有意义的减缓或暂停需要多个资源充足的前沿实验室，在多个国家，同意在相同条件下停止。还需要每个实验室能验证其他实验室确实停止了。

关键数据点

指标	数据
Claude 编写的代码占比	>80%（2026年5月）
工程师代码产出提升	8倍（2026年Q2 vs 2024）
内部生产力自评	约4倍（Mythos Preview）
代码优化加速	3x → 52x（一年内）
开放式研究任务成功率	76%（2026年5月，6个月提升50个百分点）
下一步选择优于人类	64%（Mythos Preview）
Project Glasswind 漏洞发现	10,000+ 高危漏洞

来源: Anthropic Institute