

你有没有发现,最近AI圈的风向变了?
以前大家都在比谁家的算力强、芯片多,现在突然没人提这个了!
因为真正的AI竞赛,已经从拼算力变成了拼产出——问题不再是“算得有多快”,而是“能不能又快又便宜地做出高质量结果”!
前几天举起“token之王”奖牌的黄仁勋,在最近一次采访中说了句让人震惊的话:“记住,英伟达是一家加速计算公司,而不是一家GPU公司!”
这话什么意思?
黄仁勋直言道,你可以把token看作AI时代的核心货币!
Token越聪明,你就能卖得越贵!
当然,这实际上并不是指token本身“聪明”,毕竟其本质只是文本单位,真正“聪明”的是生成这个token的模型。如果一个模型用更少的token,就能一次性给出更准确、更有用的结果,那这些token的“价值”就更高。
Transformer的注意力机制是二次复杂度的,那如何支持长记忆?又怎么实现超长对话,而不让KV cache随时间不断膨胀、变得低效甚至“失效”?
黄仁勋透露,英伟达已经提出了一种Transformer+SSM的混合架构,让Nemotron 3能同时兼顾智能性和效率!
现实世界中很多结构是对称的,模型不仅要生成“统计上合理”的结果,还要符合物理规律,比如对称性。
语言是离散的(token),而动作是连续的。现实任务往往同时包含这两类信息,而Transformer并不擅长同时处理离散与连续问题!
黄仁勋思考问题的方式不是从“我们不是什么”开始,而是从“我们需要成为什么”开始。
在当年,他们就意识到,加速计算是一个完整的全栈问题。你必须理解应用,才能去加速它。
现在,他们在建设AI工厂,在全球范围内建设AI基础设施。这远远不只是造芯片,当然,芯片非常重要,它是基础。
黄仁勋强调,英伟达的目标不是取代CPU,而是加速应用!
他们从来不是反对CPU,也不可能违背Amdahl定律——系统里总有一部分是无法被加速的。
因此,在他们的系统中,他们会选择最好的、甚至最昂贵的CPU。因为一旦CPU性能不够强,就会拖慢那些价值数百万美元的GPU!
这就像木桶效应,只要链路里有一环慢,最终的产出就会被卡住!
虽然GPU本质也算加速计算,但显然它只“计算”这一环是远远不够的,现在AI的新挑战,早已外溢到数据搬运、内存、网络和推理流程。整条链路都必须一起提速。
在GTC上新亮相的Groq LPU,正是英伟达针对“token产出”给出的一个解法!
他们收购了这家专注超低延迟推理芯片的公司,并共同推出了新的Groq LPU。
它并不是用来取代GPU,而是专门解决一个问题:如何在极低延迟下,更快地产生token。
黄仁勋表示,如果不和他们的Vera Rubin搭配,Groq也很难取得好的结果。这需要非常紧密的耦合,以及非常深度的软件集成!
如果你从整个推理的“能力边界”来看,一方面你希望吞吐量尽可能高,另一方面你又希望每个token尽可能“聪明”——token越聪明,你就可以收更高的价格。
一边是最大化吞吐,一边是最大化智能,希望每个token更“聪明”。这是一个非常难以平衡的问题!
黄仁勋说,他们仍然比任何系统都更好地覆盖了这条曲线。但可以进一步扩展帕累托边界,尤其是在极高token速率和极低延迟的区域。
黄仁勋直言,AI的上限其实取决于能源!
如果系统能产生多少token,本质上受限于数据中心里的能源。现在几乎所有环节都接近瓶颈了,你很难把任何一个环节翻一倍。
他不觉得现在的电力有“翻倍的富余”,也不觉得芯片供应有“翻倍的富余”,实际上没有任何一项资源是有两倍余量的!
黄仁勋认为,AI并不仅仅是模型,这是一个很深的误解。正如他们一开始说的,AI是一个“五层蛋糕”:基础设施、芯片、平台、模型、应用,必须在每一层都赢!
一个非常糟糕的策略是:把整个技术栈从上到下打包、强行捆绑,让所有公司都在一个整体体系里竞争。这样的话,最终的上限会被最弱的一层限制。应该让每一层都自由去竞争、去赢市场。
英伟达之所以能行动这么快,是因为他们始终有一套统一的理论。
这套统一理论其实很简单:一方面,他们拥有计算与软件平台,也就是CUDA-X;另一方面,他们是一家计算系统公司,通过全栈的垂直优化和极致协同设计来打造系统。
金句: 真正的AI革命,不是比谁算得快,而是比谁把每一分电力都转化成更有价值的产出!
互动问题: 你觉得未来AI发展的最大瓶颈是什么?电力、芯片、还是算法?
引导语: 如果这篇文章让你对AI发展有了新认识,别忘了点赞支持!分享给更多朋友,一起探讨AI的未来!