找工位
空间入驻
小程序

AI一夜干完200小时的工作,人类却成了最大的瓶颈

2026-05-01 10:25:46

你有没有想过,当AI能在眨眼间搞定你一周的活,你会变成什么?不是更轻松。而是更焦虑。

一家AI安全研究机构METR做了场疯狂的演练:他们让3名研究员用上18个月后才会出现的超级AI——能连续工作200小时的那种。结果出乎所有人意料:效率确实提升了3到5倍,但真正卡住项目的,不再是AI不够强,而是人类跟不上。

💫 这场疯狂的效率实验,暴露了一个残酷真相

METR的演练设定很简单:3名研究员扮演现实中的自己,但假设他们可以使用能连续工作约200小时的AI。这相当于2026年底的水平,而世界其他地方还停留在2026年初的技术上。他们每半天开一次站会,每个回合模拟5小时工作。最终进行了4个回合,模拟了2天的工作。

🚀 AI强到什么程度?

这个未来的AI,能力是这样的:

  • 可验证的任务上表现惊人。200小时的工作量,成功率50%;40小时的工作量,成功率80%
  • 复杂凌乱的任务上表现尚可
  • 运行速度是当前最快模型的2倍
  • 写作水平相当于METR的入职级员工

听起来很吓人吧?但真正有意思的不是AI有多强,而是人类怎么用。

💡 最震撼的发现:想法比执行慢100倍

参与者Thomas Kwa记录了一个关键观察:

一旦你有了想法,AI就会瞬间开始实施。你不再是连续构思几天,而是几小时内就能做出一个最小可行产品并进行修正。

这意味着什么?如果你交给AI的任务不复杂,你把所有时间花在理解结果上;如果任务有挑战性,你把所有时间花在检查它的工作上。不管哪种情况,你永远是最慢的那一环

🌙 聪明的做法:让AI彻夜工作

研究员们很快学会了新策略:白天人类构思,晚上AI执行。AI可以在夜间完成约200小时的工作量,但前提是任务得适合它——比如优化一个定义明确的指标。于是,安排项目顺序成了关键技能:适合AI的超长任务放夜间,需要人类判断的放白天。

🌟 当执行变成瞬间,什么成了新的瓶颈?

如果AI执行任务的速度几乎和你输入提示词一样快,猜猜卡住项目的是什么?

⚠️ 第一个瓶颈:优先级排序和项目管理

研究员发现,如果不加选择地让AI执行所有想法,项目的复杂度会爆炸式增长。即使有AI写的仪表板来优化你的理解,项目管理也会变得困难得多。因为并行执行前三个想法可能比只执行最好的一个更优——但这意味着你必须同时追踪三个方向。

⏳ 第二个瓶颈:人类反馈的迭代循环

项目进度不再卡在“写代码”上,而是卡在这些环节:

  • 等待数据分析结果
  • 等待机器学习实验完成
  • 等待同行和经理的反馈
  • 等待外部顾问的评审

这些需要串行时间的步骤,成了新的瓶颈。Thomas Kwa画了一个图:未来的项目可能需要42天自然日,但AI实际工作时间只有8小时。这意味着瓶颈耗时与AI工作量的比例超过100:1

🧠 第三个瓶颈:资深人员才能生存

参与者Tom Cunningham指出了另一个残酷的现实:在这个世界中,经验较少的初级人员将很难做出贡献。因为AI可以快速执行,但真正稀缺的是——知道该做什么的判断力。资深研究员的时间花在了两件事上:(1)写下想实现的目标;(2)对AI的产出提供反馈。初级人员缺乏这种“方向感”,他们能做的工作,AI同样能做甚至更好。

🌈 未来的工作方式,现在已经初现端倪

这场演练揭示了几个即将到来的工作流趋势,每一个都在颠覆我们对“工作”的理解。

📝 声明式工作流:你只需要写需求文档

想象一下:你不再写代码,而是写一份设计文档,让AI去实施。这就是Tom Cunningham提到的“写下你的局部效用函数”工作流。具体来说:

  1. 写下你的总体目标
  2. AI根据目标草拟产出
  3. 你对产出提供反馈
  4. AI带着更新后的目标重新执行

你的工作不再是“怎么做”,而是“要什么”。

🔮 投机性执行:同时开多条线

为了不让串行环节卡住项目,研究员会做两件事:启动大量不确定是否需要的长期实验;让AI预测实验结果和反馈。想象一下:AI不仅帮你做了报告,还预测了同事Beth、Hjalmar、Ajeya可能给出的评论,预测了调查结果,预测了在社交媒体上的反响。你可以点开每个预测查看原因,然后不断迭代,直到从外界接收到的信息具有最大信息量,再发送进行评审。

🎯 正确性证明:让AI证明自己是对的

如果AI不能做到100%可靠,它最该输出的不是代码,而是向人类证明代码符合规范的东西:测试用例、提高可复现性的文档、设计文档中每一行的具体实施位置、极端情况下,形式化验证。AI不仅要干活,还要自证清白。

👑 所有人都会变成“首席研究员”

Tom Cunningham说,他感觉自己像个研究实验室的首席研究员,或者麦肯锡的合伙人。两者的共同点是什么?把时间花在审查他人的产出、提供建议、等待下一轮评审上。这种设定非常高效,但也存在病理性的弊端。在传统研究实验室里,许多PI没时间去理解详细的统计或概念论证,导致论文流于表面。但好消息是:对于AI来说,你总能进行低成本的验证。让AI解释清楚每个结论的依据,成本几乎为零。

未来最稀缺的能力,不是执行力,而是判断力。当AI可以瞬间完成你的工作,你唯一的价值就是——知道该做什么。

你觉得自己所在的行业,最有可能被AI“推着走”的工作环节是什么?在评论区聊聊你的观察吧!如果觉得有启发,点个「在看」和「分享」,让更多朋友看到未来的模样 👇