

你是不是也发现,最近调用AI模型的账单越来越吓人了?明明只是问个简单问题,后台却生成了几万字的内心独白!更气人的是,这些天价思考里,90%可能都是废话!
最近OpenAI的财报透露了一个惊人数据:o1系列模型的平均单次请求token消耗是GPT-4o的2.7倍!在某些编程任务上,这个倍数甚至冲到五倍以上!
最夸张的例子是什么?新发布的GPT 5.4 Pro花了5分18秒、80美元,就为了回答一个简单的Hi!
这到底是怎么回事?难道AI也学会了人类的过度思考?今天我就带你揭开这个烧钱谜团,告诉你谷歌找到的省钱秘诀!
你可能不知道,思维链(Chain-of-Thought, CoT)这个概念其实比GPT还早!2022年,Google的研究者们就确立了CoT作为推理范式的地位。
当时大家发现:
于是,整个行业陷入了一个误区:既然CoT有效,那么更长的CoT应该更有效!
2023年到2024年,大量研究都在追求更长的推理链。直到2024年夏天,研究者们开始发现问题了!
斯坦福团队发现:对于简单的小学算术题,模型会生成数百甚至上千tokens的推理文本,但人类解答只需要两三步口算!
更惊人的是:当他们手动剪短这些冗长推理时,答案的正确率并没有下降,有时还会轻微上升!
那么,这些动辄几万字的超长Token,到底都花在了哪里?研究发现主要有三种烧钱模式:
1. 线性展开
模型一步步推进,每一步都生成新的中间结果。问题在于:模型不知道何时该停笔!已经算出答案了还在继续验算,或者用三种方法重复解同一道题。
2. 反思循环
模型生成初步答案后会触发自我质疑机制,不断生成自我纠正文本。这在复杂问题上确实有价值,但在简单问题上也反思,就纯属浪费了!
3. 多路径采样
为了提升鲁棒性,系统会让模型生成十几个甚至几十个不同的推理轨迹,最后通过投票选出最一致的答案。代价是成本呈几何级数暴涨!
2025年5月,一篇题为《When More is Less》的论文揭示了真相:思维链的长度与准确率之间其实是一个倒U型曲线!
超过某个临界点后,准确率开始单调下降。而且能力更强的模型,最优长度反而更短!
2026年2月,Google的论文《Think Deep, Not Just Long》给出了革命性的解决方案!
研究人员发现:想要最直观地找到有效思考的证据,就要直接观察模型在生成每个词时到底有没有在真正动脑子!
他们提出了深度思考率(DTR)指标:在一段文本中,有多少比例的token是直到网络深处才停止摇摆的?
关键发现:
论文给出了一个典型例子:
他们在多个推理模型家族上测试,结果DTR与准确率完全正相关!
基于DTR,论文还提出了Think@n方法,专门优化最烧钱的多重采样模式:
传统做法:让模型生成几十个完整推理链再投票
Think@n方法:只让每个线程先吐出50个词,立刻计算DTR
那些DTR极低、明显在背套话的线程被掐断,算力只留给开头就展现强深层计算的高潜力候选!
实验结果惊人:这能用一半token达到或超过传统方法的性能!
最近卡耐基梅隆和NYU的论文《从熵到表观复杂性:为计算受限的智能体重塑信息论》,为我们提供了更深层的理解。
传统信息理论关注的是随机信息(熵),但这解释不了深度学习模型。
论文认为:对于算力受限的智能体,数据的价值不在于它的随机性,而在于它包含的可学习的结构复杂度!
他们把这个结构复杂度定义为表观复杂性(Epiplexity)。
举个例子:
这就解释了为什么高DTR的推理更有效:因为它们在产生更多的Epiplexity!
当模型进行深层推理时,它不是在简单地检索记忆,而是在实时构建新的认知结构!
如果把这场演变放在更大的历史背景下,它其实是AI系统从能力驱动向资源理性转型的一个缩影:
早期:解决能不能的问题——能不能识别图像、生成文本
现在:解决怎样做最经济的问题——如何用最少的计算达到相同质量
Overthinking问题的凸显,正是这个转型期的必然产物!
DTR和Epiplexity不仅是测量工具,更是一种新的设计哲学。它们告诉我们:
思考的价值不在于生成了多少文本,而在于文本背后调用了多少结构性计算!
这才是从Think Long到Think Deep的真正飞跃,也是在token越来越紧张的世界中,解决算力瓶颈的有效方式!
---
金句:真正的智能不是关于处理多少信息,而是关于创造多少结构!
互动问题:你在使用AI时,有没有遇到过过度思考导致成本飙升的情况?
如果觉得这篇文章对你有帮助,别忘了点赞和分享给更多需要控制AI成本的朋友!让我们一起在AI时代更聪明地花钱!