找工位
空间入驻
小程序

AI烧钱真相:90%的思考都是废话!谷歌找到省下55%成本的秘诀

2026-03-08 05:22:40

你的AI正在浪费钱!90%的思考都是无效的

你是不是也发现,最近调用AI模型的账单越来越吓人了?明明只是问个简单问题,后台却生成了几万字的内心独白!更气人的是,这些天价思考里,90%可能都是废话!

最近OpenAI的财报透露了一个惊人数据:o1系列模型的平均单次请求token消耗是GPT-4o的2.7倍!在某些编程任务上,这个倍数甚至冲到五倍以上!

最夸张的例子是什么?新发布的GPT 5.4 Pro花了5分18秒、80美元,就为了回答一个简单的Hi

这到底是怎么回事?难道AI也学会了人类的过度思考?今天我就带你揭开这个烧钱谜团,告诉你谷歌找到的省钱秘诀!

💡 思维链的陷阱:越长越好?大错特错!

你可能不知道,思维链(Chain-of-Thought, CoT)这个概念其实比GPT还早!2022年,Google的研究者们就确立了CoT作为推理范式的地位。

当时大家发现:

  • few-shot示例中加入推理链,能让大模型在算术、常识等任务上实现跨越式提升
  • 在某些设置下,准确率能从接近零跳到60%以上!
  • 那句著名的Let‘s think step by step,就是从这里来的

于是,整个行业陷入了一个误区:既然CoT有效,那么更长的CoT应该更有效!

2023年到2024年,大量研究都在追求更长的推理链。直到2024年夏天,研究者们开始发现问题了!

斯坦福团队发现:对于简单的小学算术题,模型会生成数百甚至上千tokens的推理文本,但人类解答只需要两三步口算!

更惊人的是:当他们手动剪短这些冗长推理时,答案的正确率并没有下降,有时还会轻微上升!

⚠️ 过度思考的三种模式,你的钱都烧在哪里?

那么,这些动辄几万字的超长Token,到底都花在了哪里?研究发现主要有三种烧钱模式:

1. 线性展开

模型一步步推进,每一步都生成新的中间结果。问题在于:模型不知道何时该停笔!已经算出答案了还在继续验算,或者用三种方法重复解同一道题。

2. 反思循环

模型生成初步答案后会触发自我质疑机制,不断生成自我纠正文本。这在复杂问题上确实有价值,但在简单问题上也反思,就纯属浪费了!

3. 多路径采样

为了提升鲁棒性,系统会让模型生成十几个甚至几十个不同的推理轨迹,最后通过投票选出最一致的答案。代价是成本呈几何级数暴涨!

2025年5月,一篇题为《When More is Less》的论文揭示了真相:思维链的长度与准确率之间其实是一个倒U型曲线!

超过某个临界点后,准确率开始单调下降。而且能力更强的模型,最优长度反而更短!

🔍 谷歌的突破:深度思考率(DTR),识别有效思考的本质指标

2026年2月,Google的论文《Think Deep, Not Just Long》给出了革命性的解决方案!

研究人员发现:想要最直观地找到有效思考的证据,就要直接观察模型在生成每个词时到底有没有在真正动脑子!

他们提出了深度思考率(DTR)指标:在一段文本中,有多少比例的token是直到网络深处才停止摇摆的?

关键发现:

  • 对于简单的语法词、套话,模型的预测概率在极浅层就已经锁定
  • 但对于真正需要推理的关键tokens,模型的预测会一直修正到很深的层才收敛

论文给出了一个典型例子:

  • 回答同一个几何题,错误样本用了27724个tokens,DTR只有13.9%
  • 正确样本只用3725个tokens,DTR达到19.0%
  • 前者90%都是废话,后者句句是干货!

他们在多个推理模型家族上测试,结果DTR与准确率完全正相关!

🚀 基于DTR的Think@n方法:用一半token达到更好效果

基于DTR,论文还提出了Think@n方法,专门优化最烧钱的多重采样模式:

传统做法:让模型生成几十个完整推理链再投票

Think@n方法:只让每个线程先吐出50个词,立刻计算DTR

那些DTR极低、明显在背套话的线程被掐断,算力只留给开头就展现强深层计算的高潜力候选!

实验结果惊人:这能用一半token达到或超过传统方法的性能!

🌟 信息论新视角:表观复杂性(Epiplexity)解释为什么深度思考更有效

最近卡耐基梅隆和NYU的论文《从熵到表观复杂性:为计算受限的智能体重塑信息论》,为我们提供了更深层的理解。

传统信息理论关注的是随机信息(熵),但这解释不了深度学习模型。

论文认为:对于算力受限的智能体,数据的价值不在于它的随机性,而在于它包含的可学习的结构复杂度

他们把这个结构复杂度定义为表观复杂性(Epiplexity)

举个例子:

  • 一串随机生成的API密钥:熵很高,但Epiplexity接近于零
  • 一段算法代码:熵可能不高,但Epiplexity很高

这就解释了为什么高DTR的推理更有效:因为它们在产生更多的Epiplexity!

当模型进行深层推理时,它不是在简单地检索记忆,而是在实时构建新的认知结构!

💪 从Think Long到Think Deep:AI发展的必然转型

如果把这场演变放在更大的历史背景下,它其实是AI系统从能力驱动向资源理性转型的一个缩影:

早期:解决能不能的问题——能不能识别图像、生成文本

现在:解决怎样做最经济的问题——如何用最少的计算达到相同质量

Overthinking问题的凸显,正是这个转型期的必然产物!

DTR和Epiplexity不仅是测量工具,更是一种新的设计哲学。它们告诉我们:

思考的价值不在于生成了多少文本,而在于文本背后调用了多少结构性计算!

这才是从Think Long到Think Deep的真正飞跃,也是在token越来越紧张的世界中,解决算力瓶颈的有效方式!

---

金句:真正的智能不是关于处理多少信息,而是关于创造多少结构!

互动问题:你在使用AI时,有没有遇到过过度思考导致成本飙升的情况?

如果觉得这篇文章对你有帮助,别忘了点赞分享给更多需要控制AI成本的朋友!让我们一起在AI时代更聪明地花钱!