

最近一项重磅研究揭示了一个惊人真相:那些在独立编程测试中表现优异的AI模型,一旦进入真实的连续开发场景,表现就会断崖式下跌!从得分80%+直接掉到不到40%!
想象一下:你让AI帮你修复一个bug,它做得又快又好。但当你让它接手一个需要持续迭代3个月的项目时,结果会怎样?
最近,来自USC、Stanford、Princeton等顶尖高校的研究团队联合发布了EvoClaw评估基准。这个基准不再测试AI的“单点修复”能力,而是模拟真实的软件开发过程——让AI在同一个代码库中连续执行多个相互依赖的任务!
结果让人大跌眼镜!
在独立任务测试中,Claude Opus 4.6等顶尖模型得分普遍在80%-90%。但一旦进入EvoClaw的“持续演进”模式,最高分只有38.03%!完整解决率更是惨不忍睹,最高仅有13.37%!
这意味着什么?意味着AI距离真正胜任长期、连续的软件开发工作,还有巨大的差距!
为什么之前的编程评测会严重高估AI的真实能力?
原因很简单:过去的评测大多关注“独立任务”——修一个issue、完成一个大PR,然后在静态代码快照里验证结果。这种评测方式忽略了软件工程最核心的特点:持续演进!
真实开发中,前面的实现选择会约束后面的开发空间;早期留下的小问题,可能在后续版本里不断放大成系统性风险!
EvoClaw的设计理念完全不同:它要求AI必须在同一个代码库中连续执行多个相互依赖的任务。除了外部提供需求,其余的一切开发维护都由AI自主完成!
这种“开发环境持久化”的设计,直接暴露了AI在连续自主迭代场景下的脆弱性!
研究团队提出了一个革命性的方法:从真实的开源项目中提取代码演进历史,并将其重构为里程碑任务依赖图(Milestone DAG)!
第一阶段:静态分析与去噪
过滤掉文档、CI/CD配置等无关修改,提取代码行级别和符号级别的依赖关系!
第二阶段:Agent驱动的DAG构建
大模型Agent充当“架构师”,通过四个子步骤重构历史:寻找“种子”提交、合并相关提交、推理依赖关系、动态拆分过大Milestone!
第三阶段:迭代式修复循环
这是最关键的环节!当按照新拓扑顺序重新应用Commit时,经常会遭遇接口不匹配、编译大面积报错的情况!
研究团队设计了一套“迭代式修复循环”:Agent主动分析报错日志,动态修改Dockerfile确保可执行;更重要的是,它会补充原本遗漏的隐式依赖,通过调整Milestone的先后关系彻底解决接口冲突!
最终确保能收集到至少85%的原有测试用例,为评估提供充足的测试基础!
演进停滞现象:无论迭代多少次,所有模型的表现最终都会撞上天花板!任务的执行顺序越靠后、所处的DAG层级越深,分数和解决率就越低!
基于饱和函数的外推显示,即便是表现最优的Opus 4.6,其累计分数也会被卡死在45%左右的渐近线上限无法突破!
研究团队提出了“错误链”概念:跟踪一个测试从首次出错开始,观察错误在后续milestone中是被继承、扩散、跳过还是修复!
结果显示:随着项目进展,前置错误的累积速度远远超过了修复速度,最终陷入“技术债破产”!
所有模型均呈现相似趋势:
其中,GPT-5.3-Codex在项目演进中的effort分配最为稳定!
这意味着:AI的基础编程能力没有衰退,但在维持系统稳定性上还有巨大缺陷!
EvoClaw的研究提醒我们一个残酷现实:写出代码只是起点,能在长周期的系统演进中严格遵循需求并维持整体稳定,才是真正踏入软件工程的门槛!
目前前沿模型的核心局限在于:它们更接近按需生成代码的会话工具,而非对项目全貌了然于胸的资深工程师!
它们只会:
要让AI真正成为合格的软件工程师,必须突破三大关键能力:
金句:AI编程的下半场,不是比谁代码写得快,而是比谁系统管得好!
你在实际工作中遇到过AI编程的哪些坑?欢迎在评论区分享你的经历!
如果觉得这篇文章对你有帮助,别忘了点赞和分享给更多开发者朋友!让我们一起迎接AI编程的新时代!