找工位
空间入驻
小程序

预训练成本直降60%!Nous Research的TST方法,让大模型训练终于不再烧钱了

2026-05-16 05:04:21

兄弟们,你们有没有这种感觉?

每次看到大模型训练的GPU账单,心都在滴血。训练一个百亿参数模型,动辄上万小时的GPU时间,烧掉的钱够买好几套房了。更扎心的是——你花了这么多钱,还不一定能训出好结果!

但今天,有个好消息来了。

The post that spawned Hermes Agent(140K Star)的Nous Research团队,刚刚扔出一颗重磅炸弹:Token Superposition Training(TST),一种能把大模型预训练成本压低一个量级的训练方法。

消息一出,论文浏览量直接飙到41万+。为啥这么火?因为它是真的香啊!

💡 TST到底是个啥?说白了就是让模型先"粗读"再"精读"

要理解TST,我们得先搞清楚大模型预训练最基础的那个动作:next-token prediction(下一个词元预测)

标准训练里,模型看到前面的token,预测下一个token。简单吧?强大吧?过去几年,几乎所有主流LLM都是在这个范式上堆出来的。

但Nous Research提出了一个很朴素的问题:

模型在预训练一开始,真的有必要逐token精读吗?

答案大概率是:没必要。

他们把预训练拆成了两个阶段。

🚀 第一阶段:词元叠加阶段(superposition phase)

在这个阶段,模型不再是"一个字一个字"地读文本,而是把连续多个token打成一个包。

比如,bag size设为8,那就把连续8个token看作一组。输入侧,模型把这组token的embedding求平均,变成一个压缩后的"叠加词元";输出侧,模型不再预测下一个单独token,而是预测下一组token里会出现哪些token。

听起来有点绕?那我们举个更形象的例子:

传统训练像拿着一本字典,一个字一个字地查;而TST的早期训练,就像先快速扫一遍段落的大意。你不需要知道每个字具体是什么,你只需要知道这段大概在讲什么。

这不就是"粗读"吗?没错!

🌟 第二阶段:恢复阶段(recovery phase)

训练跑到一定比例后,TST被移除,模型重新回到标准next-token prediction。

后半程还是按照普通LLM的方式训练,把前期"粗读"学到的表示,拉回到可以生成、可以部署的自回归模型形态。

TST被称为"即插即用式预训练方法",重点就在这里:

它不需要修改并行策略、优化器、tokenizer、训练数据或模型架构。真正改变的,只是训练早期的输入粒度和监督目标。

只改变训练过程,不改变推理模型。

这跟很多方法完全不一样!比如你改tokenizer,生态兼容要重来;改模型结构,部署链路要适配;改注意力或推理机制,线上服务也要跟着调整。

而TST是——把复杂度留在训练阶段,最终交付的,仍然是一个普通LLM。

💪 为什么TST能省这么多GPU?核心就四个字:数据吞吐

TST的提速不是玄学。它的核心是一种资源取舍:用更粗的token表示,换更高的数据吞吐。

这里的数据吞吐,对应论文里的"data throughput per FLOPs"。换句话说,不是GPU忽然变快了,而是同样算一次,模型能看见更多文本。

⚠️ 标准和TST的核心差异

标准训练中,模型每个位置处理一个token,序列长度为L,Transformer就要处理L个表示。

但在TST的叠加阶段,连续s个token被合成一个superposed token。模型内部处理的序列长度变短了,但每个位置对应的原始文本却变多了。

因为在更粗粒度的表示上计算,所以在相同FLOPs下,它可以处理s倍的数据。

传统预训练像逐字精读;而TST的早期训练则像是先快速扫一遍段落,抓住局部主题、词汇共现和语义分布。等模型建立起基础表示后,再切回逐字精读。

当然,这种"粗读"不是没有代价的——它会丢失包内的词序信息,所以不能全程使用。但在模型刚接触语言统计结构时,这种低分辨率输入反而够用且高效。

论文将此定义为一种"由粗到细"的策略:先让模型在简单、高吞吐的分布中学习粗粒度统计结构,再恢复全分辨率语言建模。

📊 数据不会骗人:百亿参数模型收益最大

论文最值得关注的,是一组百亿参数MoE实验(Qwen3-like 10B-A1B MoE),效果非常直观:

  • baseline:训练1.05T tokens,消耗12311 B200-hours
  • TST:训练2T tokens,仅消耗4768 B200-hours,约为baseline的 38.7%
  • 同时,final loss从2.252降至2.236,HellaSwag、ARC-E、ARC-C、MMLU等0-shot评测全面提升!

什么概念?

TST只用了约四成GPU时间,就跑出了更低的loss和更好的下游指标!相当于在相同最终损失下,将预训练时间压缩到原来的40%,提速约2.5倍

这对开发者来说意味着什么?

预训练不是一锤子买卖,而是不断试错的过程。早期训练越快进入有效区间,数据配方、超参设置这些实验就能越早得到验证。

TST省下的不只是一次训练的GPU小时,更是整个实验周期的试错成本。

🎯 训练降本的新方向:别总盯着模型结构开刀

TST最大的看头,不是它设计了多复杂的新架构,而是它点醒了一件事:

训练降本,别总盯着模型结构开刀。

过去一提降本,大家本能就是加卡、改架构、卷并行、做蒸馏。这些都是系统级重体力活,家里没有余粮的团队根本接不住。

但这次,TST给了一个轻得多的切口:只调整预训练早期的学习路径。

这意味着什么?

同样多的GPU预算,能多试几轮配方。1B到10B级垂直模型的试错成本能明显下降。对那些只想训个够用行业模型的中小团队来说,这比硬刚前沿最新模型务实得多。

🔄 TST vs DeepSeek:两条截然不同的降本路线

之所以把Nous Research与DeepSeek对标,不只是因为这两支团队都长期坚守开源阵营,更因二者的降本路线截然不同:

  • DeepSeek:系统级重构。无论是MoE、MLA,还是稀疏化与并行优化,皆靠系统级工程压榨算力。效率提升从来不是免费的,工程总要在别处为复杂度买单。
  • Nous Research(TST):重写预训练早期的学习路径。不碰架构,从模型学习token的方式本身下手,切口更轻巧,更容易落地。

当然,TST也不是免费午餐。

它本质上是"拿数据吞吐换GPU时间"。如果你是算力受限的团队,这招极香;但如果你连高质量数据都喂不饱,那TST不仅帮不上忙,甚至可能放大数据短板。

但这不影响它的方向价值。

TST把一个被默认太久的问题重新拎了出来:模型学习语言的顺序,本身也可能是一种效率杠杆。

当模型越来越贵,真正有价值的创新不只是把模型做大,而是让模型更会学习。更准确地说,是让每一步训练都更值钱。

金句:降本的最高境界,不是让GPU跑得更快,而是让每一次跑都更值得。

互动问题:你觉得TST这种"先粗读再精读"的训练思路,未来会取代标准的next-token prediction吗?还是只适合特定场景?评论区聊聊你的看法!

如果觉得这篇文章有帮助,别忘了点赞+在看+分享,让更多缺GPU的兄弟们看到希望!