当 AI 构建自身:递归自我改进的进展与影响
我们的递归自我改进进展,及其影响。 核心论点 AI 历史的大部分时间里,人类驱动着开发周期的每一步。但在 Anthropic,我们正将越来越多的 AI 开发工作委托给 AI 系统本身,这加速了我们的工作。这一趋势推向极致——加上足够的算力——指向一个能完全自主设计和开发自身后继者的 AI 系统。这就...
我们的递归自我改进进展,及其影响。
核心论点
AI 历史的大部分时间里,人类驱动着开发周期的每一步。但在 Anthropic,我们正将越来越多的 AI 开发工作委托给 AI 系统本身,这加速了我们的工作。这一趋势推向极致——加上足够的算力——指向一个能完全自主设计和开发自身后继者的 AI 系统。这就是递归自我改进。我们还没到那一步,但它可能比大多数机构准备得更快到来。
发展阶段
| 时间 | 阶段 | 描述 |
|---|---|---|
| 2021–2023 | 构建第一个 Claude | 人们在笔记本电脑上写代码和文档,和任何其他科技公司一样 |
| 2023–2025 | 聊天机器人 | 人们用早期聊天机器人辅助部分流程,如生成短代码片段 |
| 2025–2026 | 编程代理 | 代理变得更强大,能自己编写和编辑代码,有时是整个文件 |
| 今天 | 自主代理 | 代理现在可以自己运行代码,将数小时的工作委托给其他代理 |
| 20XX? | 闭环 | 未来,代理可能足够强大来构建和训练模型自身 |
外部世界的证据
AI 模型改进的速度正在加速。模型能可靠完成的任务长度大约每四个月翻倍,比之前每七个月翻倍的趋势更快。
- 2024年3月:Claude Opus 3 能完成人类约4分钟的软件任务
- 2025年3月:Claude Sonnet 3.7 完成约1.5小时的任务
- 2026年3月:Claude Opus 4.6 完成12小时的任务
如果这一趋势持续,需要数天的任务今年可能进入范围,2027年 AI 系统可能胜任需要数周的工作。
基准测试饱和
- SWE-bench(真实软件工程):模型从个位数得分到两年内饱和基准
- CORE-Bench(复现研究):AI 从2024年约20%成功率到15个月后饱和
- METR:Claude Mythos Preview 能工作"至少"16小时,处于"METR 在不需要新任务的情况下能测量的上限"
Anthropic 内部证据
工程方面
Claude 编写了 Anthropic 大部分代码。截至2026年5月,超过80%合并到代码库的代码由 Claude 编写。在2025年2月 Claude Code 推出之前,这个数字在个位数。
- 每位工程师每天合并的代码行数在2021-2024年保持恒定
- 2025年开始上升(Claude 开始运行代码而非仅建议)
- 2026年斜率再次加陡(模型开始更长时间自主工作)
- 2026年Q2:典型工程师每天合并的代码是2024年的8倍
代码行数是不完美的衡量标准,8倍几乎肯定高估了真实生产力增益。但它表明了加速。
内部调查
2026年3月对130名 Anthropic 研究人员的调查显示,中位数受访者估计使用 Mythos Preview 的产出约为无 AI 辅助时的4倍。
代码质量
- 正确性:Anthropic 员工纠正、重定向或接管 Claude 任务的比例持续下降一年,包括最复杂和开放式的任务
- 可读性:许多员工认为 Claude 编写的代码在2025年底仍不如人类,目前大致持平,预计年内会更好
- 自动代码审查:Claude 审查员能捕捉到约三分之一的导致 claude.ai 事故的 bug,而这些代码是由世界顶级工程师编写的
研究方面
Claude 擅长运行实验以达到他人设定的目标:
- 2025年5月:Claude Opus 4 平均约3倍加速
- 2026年4月:Claude Mythos Preview 达到约52倍加速
- 对比:熟练人类研究员需要4-8小时达到4倍
Claude 在提出自己的实验方面越来越好:
- 2026年4月发表的首次演示:Claude 代理端到端运行开放式研究项目
- 弱模型监督强模型问题:代理恢复了97%的差距(人类研究者约23%)
- 耗时约800累计小时,使用约18,000美元计算
Claude 在引导研究会话方面越来越好:
- 在人类研究员做出次优选择的时刻(n=129),测试模型是否能建议更好的下一步
- 2025年11月(Opus 4.5):51%的情况优于人类选择
- 2026年4月(Mythos Preview):64%的情况优于人类选择
三种可能的未来
未来1:趋势停滞,但当前能力广泛扩散
指数轨迹可能是S曲线。判断力可能无法通过规模获得。约束可能在供应链(芯片、电网、带宽)而非模型。即使模型能力冻结在当前水平,也会发生重大变化——Project Glasswing 在前几周发现了超过一万个高严重性软件漏洞。
我们包含这个场景是为了完整性,但我们不认为它很可能。我们能测量的每一项能力都遵循相同的曲线。我们还没有看到曲线弯曲。
未来2:AI 实验室持续看到复合效率增益
AI 开发大幅自动化,但人类继续设定研究方向和评判结果。100人的公司可以做10,000或100,000人组织的工作。人类角色转向监督、验证和审查。但 Amdahl 定律适用——整体节奏受限于未加速的部分。
未来3:AI 系统实现完全递归自我改进
AI 进步的节奏完全由算力可用性决定。人类角色大幅缩减,转向监督和验证一个不断扩展的"虚拟实验室"。对齐问题在这个未来中最不确定。
递归智能无法在数十年使用中了解药物的效果,无法比宪法规定更快地举行选举,也无法在一个周末把陌生人变成老朋友。对大多数人来说,这个未来的感知节奏仍然由瓶颈决定,即使上游实验室以算力的速度运行。
我们应该做什么
如果能够有效减缓这项技术的发展以获得更多时间处理其巨大影响,我们认为那可能是好事。但如果减缓只是让最不谨慎的参与者赶上,可能会让每个人都不那么安全。
我们需要:
- 构建系统使前沿 AI 开发者能验证其他人在全球范围内确实停止或减缓
- 多个资源充足的实验室在多个国家同意在相同条件下停止
- 每个实验室都能验证其他实验室确实停止了
有意义的减缓或暂停需要多个资源充足的前沿实验室,在多个国家,同意在相同条件下停止。还需要每个实验室能验证其他实验室确实停止了。
关键数据点
| 指标 | 数据 |
|---|---|
| Claude 编写的代码占比 | >80%(2026年5月) |
| 工程师代码产出提升 | 8倍(2026年Q2 vs 2024) |
| 内部生产力自评 | 约4倍(Mythos Preview) |
| 代码优化加速 | 3x → 52x(一年内) |
| 开放式研究任务成功率 | 76%(2026年5月,6个月提升50个百分点) |
| 下一步选择优于人类 | 64%(Mythos Preview) |
| Project Glasswind 漏洞发现 | 10,000+ 高危漏洞 |