预训练成本直降60%！Nous Research的TST方法，让大模型训练终于不再烧钱了

2026-05-16 05:04:21

兄弟们，你们有没有这种感觉？

每次看到大模型训练的GPU账单，心都在滴血。训练一个百亿参数模型，动辄上万小时的GPU时间，烧掉的钱够买好几套房了。更扎心的是——你花了这么多钱，还不一定能训出好结果！

但今天，有个好消息来了。

The post that spawned Hermes Agent（140K Star）的Nous Research团队，刚刚扔出一颗重磅炸弹：Token Superposition Training（TST），一种能把大模型预训练成本压低一个量级的训练方法。

消息一出，论文浏览量直接飙到41万+。为啥这么火？因为它是真的香啊！

💡 TST到底是个啥？说白了就是让模型先"粗读"再"精读"

要理解TST，我们得先搞清楚大模型预训练最基础的那个动作：next-token prediction（下一个词元预测）。

标准训练里，模型看到前面的token，预测下一个token。简单吧？强大吧？过去几年，几乎所有主流LLM都是在这个范式上堆出来的。

但Nous Research提出了一个很朴素的问题：

模型在预训练一开始，真的有必要逐token精读吗？

答案大概率是：没必要。

他们把预训练拆成了两个阶段。

🚀 第一阶段：词元叠加阶段（superposition phase）

在这个阶段，模型不再是"一个字一个字"地读文本，而是把连续多个token打成一个包。

比如，bag size设为8，那就把连续8个token看作一组。输入侧，模型把这组token的embedding求平均，变成一个压缩后的"叠加词元"；输出侧，模型不再预测下一个单独token，而是预测下一组token里会出现哪些token。

听起来有点绕？那我们举个更形象的例子：

传统训练像拿着一本字典，一个字一个字地查；而TST的早期训练，就像先快速扫一遍段落的大意。你不需要知道每个字具体是什么，你只需要知道这段大概在讲什么。

这不就是"粗读"吗？没错！

🌟 第二阶段：恢复阶段（recovery phase）

训练跑到一定比例后，TST被移除，模型重新回到标准next-token prediction。

后半程还是按照普通LLM的方式训练，把前期"粗读"学到的表示，拉回到可以生成、可以部署的自回归模型形态。

TST被称为"即插即用式预训练方法"，重点就在这里：

它不需要修改并行策略、优化器、tokenizer、训练数据或模型架构。真正改变的，只是训练早期的输入粒度和监督目标。

只改变训练过程，不改变推理模型。

这跟很多方法完全不一样！比如你改tokenizer，生态兼容要重来；改模型结构，部署链路要适配；改注意力或推理机制，线上服务也要跟着调整。

而TST是——把复杂度留在训练阶段，最终交付的，仍然是一个普通LLM。

💪 为什么TST能省这么多GPU？核心就四个字：数据吞吐

TST的提速不是玄学。它的核心是一种资源取舍：用更粗的token表示，换更高的数据吞吐。

这里的数据吞吐，对应论文里的"data throughput per FLOPs"。换句话说，不是GPU忽然变快了，而是同样算一次，模型能看见更多文本。

⚠️ 标准和TST的核心差异

标准训练中，模型每个位置处理一个token，序列长度为L，Transformer就要处理L个表示。

但在TST的叠加阶段，连续s个token被合成一个superposed token。模型内部处理的序列长度变短了，但每个位置对应的原始文本却变多了。

因为在更粗粒度的表示上计算，所以在相同FLOPs下，它可以处理s倍的数据。

传统预训练像逐字精读；而TST的早期训练则像是先快速扫一遍段落，抓住局部主题、词汇共现和语义分布。等模型建立起基础表示后，再切回逐字精读。

当然，这种"粗读"不是没有代价的——它会丢失包内的词序信息，所以不能全程使用。但在模型刚接触语言统计结构时，这种低分辨率输入反而够用且高效。

论文将此定义为一种"由粗到细"的策略：先让模型在简单、高吞吐的分布中学习粗粒度统计结构，再恢复全分辨率语言建模。

📊 数据不会骗人：百亿参数模型收益最大

论文最值得关注的，是一组百亿参数MoE实验（Qwen3-like 10B-A1B MoE），效果非常直观：

baseline：训练1.05T tokens，消耗12311 B200-hours
TST：训练2T tokens，仅消耗4768 B200-hours，约为baseline的 38.7%
同时，final loss从2.252降至2.236，HellaSwag、ARC-E、ARC-C、MMLU等0-shot评测全面提升！

什么概念？

TST只用了约四成GPU时间，就跑出了更低的loss和更好的下游指标！相当于在相同最终损失下，将预训练时间压缩到原来的40%，提速约2.5倍。

这对开发者来说意味着什么？

预训练不是一锤子买卖，而是不断试错的过程。早期训练越快进入有效区间，数据配方、超参设置这些实验就能越早得到验证。

TST省下的不只是一次训练的GPU小时，更是整个实验周期的试错成本。

🎯 训练降本的新方向：别总盯着模型结构开刀

TST最大的看头，不是它设计了多复杂的新架构，而是它点醒了一件事：

训练降本，别总盯着模型结构开刀。

过去一提降本，大家本能就是加卡、改架构、卷并行、做蒸馏。这些都是系统级重体力活，家里没有余粮的团队根本接不住。

但这次，TST给了一个轻得多的切口：只调整预训练早期的学习路径。

这意味着什么？

同样多的GPU预算，能多试几轮配方。1B到10B级垂直模型的试错成本能明显下降。对那些只想训个够用行业模型的中小团队来说，这比硬刚前沿最新模型务实得多。

🔄 TST vs DeepSeek：两条截然不同的降本路线

之所以把Nous Research与DeepSeek对标，不只是因为这两支团队都长期坚守开源阵营，更因二者的降本路线截然不同：

DeepSeek：系统级重构。无论是MoE、MLA，还是稀疏化与并行优化，皆靠系统级工程压榨算力。效率提升从来不是免费的，工程总要在别处为复杂度买单。
Nous Research（TST）：重写预训练早期的学习路径。不碰架构，从模型学习token的方式本身下手，切口更轻巧，更容易落地。

当然，TST也不是免费午餐。

它本质上是"拿数据吞吐换GPU时间"。如果你是算力受限的团队，这招极香；但如果你连高质量数据都喂不饱，那TST不仅帮不上忙，甚至可能放大数据短板。

但这不影响它的方向价值。

TST把一个被默认太久的问题重新拎了出来：模型学习语言的顺序，本身也可能是一种效率杠杆。

当模型越来越贵，真正有价值的创新不只是把模型做大，而是让模型更会学习。更准确地说，是让每一步训练都更值钱。

金句：降本的最高境界，不是让GPU跑得更快，而是让每一次跑都更值得。

互动问题：你觉得TST这种"先粗读再精读"的训练思路，未来会取代标准的next-token prediction吗？还是只适合特定场景？评论区聊聊你的看法！

如果觉得这篇文章有帮助，别忘了点赞+在看+分享，让更多缺GPU的兄弟们看到希望！

上一篇： 2026年，短剧市场即将大洗牌？懂这4点的人已经赚到了

下一篇：理想L9和蔚来ES9硬刚！主动悬架哪家强？50万级新车暗藏杀招

热点资讯

历届鲁迅文学奖获奖作品名单

2024-09-02 00:00:00

【快讯】广州市委常委、黄埔区委书记陈杰一行调研蜜蜂科技BEEPLUS

2023-09-01 00:00:00

12年，从22亿到超过520亿，海底捞谋局千亿背后的战略解码

2024-05-16 00:00:00

2025年深圳注册公司全流程指南：一步到位

2025-05-20 00:00:00

【2024新一线城市名单出炉】三大角度解析《新一线城市魅力排行榜》榜单

2024-06-07 00:00:00

超过海尔、格力上千亿，3737亿的美的，全球第一背后的战略解码（万字深度长文）

2024-10-04 00:00:00

全网开骂的武汉“孕妇选美比赛”，撕开了当下社会最离谱的一幕

2024-11-18 00:00:00