

最近,英伟达推出了Nemotron 3系列开源模型,号称“最高效的开放模型家族”!这可不是普通的开源,而是真正的“全栈开源”——不仅开放模型权重,连超过10万亿token的训练数据、预训练和后训练软件、训练配方全部公开!
更惊人的是,与其他开源模型相比,Nemotron 3的性能不仅不输,速度还快了1.5-3.3倍!这到底是怎么做到的?让我们一探究竟!
传统Transformer模型有个大问题:自注意力机制需要对不断增长的KV Cache做线性扫描,序列越长,计算开销越大!
英伟达的解决方案太聪明了:大量使用Mamba-2层替代自注意力层!Mamba层在生成时只需要存储固定大小的状态,完全不受序列长度影响!
以Nano型号为例,整个模型主要由交替堆叠的Mamba-2层和MoE层构成,自注意力层只保留了少数几个!
这种架构带来的效果有多惊人?
针对Super和Ultra这两个更大的模型,英伟达提出了LatentMoE架构,在潜在空间中进行专家计算!
MoE层在实际部署时会遇到两类瓶颈:
LatentMoE的解决方案太巧妙了:
这样一来,每个专家的权重加载量和通信量都大幅降低!省下来的计算预算被用于增加专家数量和每个token激活的专家数!
效果有多显著?
Super和Ultra模型还采用了NVFP4格式进行训练,这是英伟达在低精度训练上的又一次突破!
NVFP4是一种4位浮点格式,在GB300上,FP4的峰值吞吐量是FP8的3倍!
更厉害的是:
当然,并非所有层都适合量化到NVFP4。团队做了精细的优化:
Nemotron 3的后训练采用了多环境强化学习,覆盖了各种任务:
与之前分阶段训练不同能力的做法不同,这次英伟达选择同时训练所有任务!
论文指出,这种同步训练方式:
训练效果有多明显?
Nemotron 3的高效推理吞吐量在这里发挥了重要作用!
大规模RL需要生成海量rollout样本,Nemotron 3的混合架构相比其他开源模型有显著优势!
团队还采用了:
整个后训练软件栈以Apache 2.0协议开源,包括:
Nemotron 3还支持推理时的思维预算控制!
用户可以指定思维链的最大token数,当模型达到预算时,追加一个标记即可让模型基于部分思维链生成最终回答!
论文给出了准确率与平均生成token数之间的权衡曲线,这为实际部署中的效率-精度平衡提供了细粒度控制!
英伟达这次的开源诚意十足:
这不仅仅是开源一个模型,而是开源了整个AI训练生态!
“真正的开源不是给鱼,而是教人钓鱼;英伟达这次不仅给了鱼竿,还给了整片海洋!”
你觉得英伟达这次的全栈开源会如何改变AI行业的竞争格局?欢迎在评论区分享你的看法!
如果觉得这篇文章对你有帮助,别忘了点赞和分享给更多AI爱好者!让我们一起见证AI技术的飞速发展!
