

兄弟们,你们有没有这种感觉?
每次看到大模型训练的GPU账单,心都在滴血。训练一个百亿参数模型,动辄上万小时的GPU时间,烧掉的钱够买好几套房了。更扎心的是——你花了这么多钱,还不一定能训出好结果!
但今天,有个好消息来了。
The post that spawned Hermes Agent(140K Star)的Nous Research团队,刚刚扔出一颗重磅炸弹:Token Superposition Training(TST),一种能把大模型预训练成本压低一个量级的训练方法。
消息一出,论文浏览量直接飙到41万+。为啥这么火?因为它是真的香啊!
要理解TST,我们得先搞清楚大模型预训练最基础的那个动作:next-token prediction(下一个词元预测)。
标准训练里,模型看到前面的token,预测下一个token。简单吧?强大吧?过去几年,几乎所有主流LLM都是在这个范式上堆出来的。
但Nous Research提出了一个很朴素的问题:
模型在预训练一开始,真的有必要逐token精读吗?
答案大概率是:没必要。
他们把预训练拆成了两个阶段。
在这个阶段,模型不再是"一个字一个字"地读文本,而是把连续多个token打成一个包。
比如,bag size设为8,那就把连续8个token看作一组。输入侧,模型把这组token的embedding求平均,变成一个压缩后的"叠加词元";输出侧,模型不再预测下一个单独token,而是预测下一组token里会出现哪些token。
听起来有点绕?那我们举个更形象的例子:
传统训练像拿着一本字典,一个字一个字地查;而TST的早期训练,就像先快速扫一遍段落的大意。你不需要知道每个字具体是什么,你只需要知道这段大概在讲什么。
这不就是"粗读"吗?没错!
训练跑到一定比例后,TST被移除,模型重新回到标准next-token prediction。
后半程还是按照普通LLM的方式训练,把前期"粗读"学到的表示,拉回到可以生成、可以部署的自回归模型形态。
TST被称为"即插即用式预训练方法",重点就在这里:
它不需要修改并行策略、优化器、tokenizer、训练数据或模型架构。真正改变的,只是训练早期的输入粒度和监督目标。
只改变训练过程,不改变推理模型。
这跟很多方法完全不一样!比如你改tokenizer,生态兼容要重来;改模型结构,部署链路要适配;改注意力或推理机制,线上服务也要跟着调整。
而TST是——把复杂度留在训练阶段,最终交付的,仍然是一个普通LLM。
TST的提速不是玄学。它的核心是一种资源取舍:用更粗的token表示,换更高的数据吞吐。
这里的数据吞吐,对应论文里的"data throughput per FLOPs"。换句话说,不是GPU忽然变快了,而是同样算一次,模型能看见更多文本。
标准训练中,模型每个位置处理一个token,序列长度为L,Transformer就要处理L个表示。
但在TST的叠加阶段,连续s个token被合成一个superposed token。模型内部处理的序列长度变短了,但每个位置对应的原始文本却变多了。
因为在更粗粒度的表示上计算,所以在相同FLOPs下,它可以处理s倍的数据。
传统预训练像逐字精读;而TST的早期训练则像是先快速扫一遍段落,抓住局部主题、词汇共现和语义分布。等模型建立起基础表示后,再切回逐字精读。
当然,这种"粗读"不是没有代价的——它会丢失包内的词序信息,所以不能全程使用。但在模型刚接触语言统计结构时,这种低分辨率输入反而够用且高效。
论文将此定义为一种"由粗到细"的策略:先让模型在简单、高吞吐的分布中学习粗粒度统计结构,再恢复全分辨率语言建模。
论文最值得关注的,是一组百亿参数MoE实验(Qwen3-like 10B-A1B MoE),效果非常直观:
什么概念?
TST只用了约四成GPU时间,就跑出了更低的loss和更好的下游指标!相当于在相同最终损失下,将预训练时间压缩到原来的40%,提速约2.5倍。
这对开发者来说意味着什么?
预训练不是一锤子买卖,而是不断试错的过程。早期训练越快进入有效区间,数据配方、超参设置这些实验就能越早得到验证。
TST省下的不只是一次训练的GPU小时,更是整个实验周期的试错成本。
TST最大的看头,不是它设计了多复杂的新架构,而是它点醒了一件事:
训练降本,别总盯着模型结构开刀。
过去一提降本,大家本能就是加卡、改架构、卷并行、做蒸馏。这些都是系统级重体力活,家里没有余粮的团队根本接不住。
但这次,TST给了一个轻得多的切口:只调整预训练早期的学习路径。
这意味着什么?
同样多的GPU预算,能多试几轮配方。1B到10B级垂直模型的试错成本能明显下降。对那些只想训个够用行业模型的中小团队来说,这比硬刚前沿最新模型务实得多。
之所以把Nous Research与DeepSeek对标,不只是因为这两支团队都长期坚守开源阵营,更因二者的降本路线截然不同:
当然,TST也不是免费午餐。
它本质上是"拿数据吞吐换GPU时间"。如果你是算力受限的团队,这招极香;但如果你连高质量数据都喂不饱,那TST不仅帮不上忙,甚至可能放大数据短板。
但这不影响它的方向价值。
TST把一个被默认太久的问题重新拎了出来:模型学习语言的顺序,本身也可能是一种效率杠杆。
当模型越来越贵,真正有价值的创新不只是把模型做大,而是让模型更会学习。更准确地说,是让每一步训练都更值钱。
金句:降本的最高境界,不是让GPU跑得更快,而是让每一次跑都更值得。
互动问题:你觉得TST这种"先粗读再精读"的训练思路,未来会取代标准的next-token prediction吗?还是只适合特定场景?评论区聊聊你的看法!
如果觉得这篇文章有帮助,别忘了点赞+在看+分享,让更多缺GPU的兄弟们看到希望!