找工位
空间入驻
小程序

英伟达放大招!开源模型速度飙升3.3倍,训练数据全公开

2025-12-28
文章转载自"淘工位"

英伟达开源革命:速度翻3倍,数据全公开,AI竞赛要变天了!

最近,英伟达推出了Nemotron 3系列开源模型,号称“最高效的开放模型家族”!这可不是普通的开源,而是真正的“全栈开源”——不仅开放模型权重,连超过10万亿token的训练数据、预训练和后训练软件、训练配方全部公开!

更惊人的是,与其他开源模型相比,Nemotron 3的性能不仅不输,速度还快了1.5-3.3倍!这到底是怎么做到的?让我们一探究竟!

💡 混合架构:Mamba+Transformer的完美组合

传统Transformer模型有个大问题:自注意力机制需要对不断增长的KV Cache做线性扫描,序列越长,计算开销越大!

英伟达的解决方案太聪明了:大量使用Mamba-2层替代自注意力层!Mamba层在生成时只需要存储固定大小的状态,完全不受序列长度影响!

以Nano型号为例,整个模型主要由交替堆叠的Mamba-2层和MoE层构成,自注意力层只保留了少数几个!

这种架构带来的效果有多惊人?

  • 在8k输入、16k输出的典型推理场景下,Nemotron 3 Nano 30B-A3B的吞吐量是Qwen3-30B-A3B的3.3倍!
  • 序列越长,优势越明显!
  • 长上下文任务表现不打折扣,在100万token输入长度下,Nemotron 3基座模型拿到了68.2分!

🌟 LatentMoE:潜空间里的专家路由革命

针对Super和Ultra这两个更大的模型,英伟达提出了LatentMoE架构,在潜在空间中进行专家计算!

MoE层在实际部署时会遇到两类瓶颈:

  • 低延迟场景:每次只处理几十到几百个token,从显存读取专家权重成为主要开销
  • 高吞吐场景:一次处理数千token,专家间的all-to-all通信成为瓶颈

LatentMoE的解决方案太巧妙了:

  1. 先把token从原始隐藏维度投影到一个更小的潜在维度(通常是原始维度的四分之一)
  2. 在这个低维空间里完成专家路由和计算
  3. 最后再投影回原始维度

这样一来,每个专家的权重加载量和通信量都大幅降低!省下来的计算预算被用于增加专家数量和每个token激活的专家数!

效果有多显著?

  • 标准MoE用128个专家、激活6个
  • LatentMoE用512个专家、激活22个
  • 总参数量和激活参数量几乎相同,但LatentMoE在所有下游任务上都取得了更好的成绩!

⚡ NVFP4训练:低精度,高性能

SuperUltra模型还采用了NVFP4格式进行训练,这是英伟达在低精度训练上的又一次突破!

NVFP4是一种4位浮点格式,在GB300上,FP4的峰值吞吐量是FP8的3倍!

更厉害的是:

  • 团队已经用NVFP4格式稳定训练了高达25万亿token!
  • 与BF16训练相比,Nano模型的损失差距控制在1%以内
  • 8B激活参数的更大模型差距进一步缩小到0.6%以内
  • 在MMLU、GSM8K、HumanEval等下游任务上,NVFP4训练的模型与BF16版本的准确率曲线几乎完全重合!

当然,并非所有层都适合量化到NVFP4。团队做了精细的优化:

  • Mamba输出投影层保留在MXFP8精度
  • QKV投影和注意力投影保留在BF16
  • 网络最后15%的层也保持高精度以确保稳定性

🚀 多环境强化学习:一把训到底

Nemotron 3的后训练采用了多环境强化学习,覆盖了各种任务:

  • 数学推理
  • 竞赛编程
  • 指令遵循
  • 软件工程
  • 搜索
  • 对话
  • 通用工具使用
  • 长上下文处理

与之前分阶段训练不同能力的做法不同,这次英伟达选择同时训练所有任务!

论文指出,这种同步训练方式:

  • 更稳定
  • 更不容易出现reward hacking
  • 避免了分阶段训练常见的能力退化问题

训练效果有多明显?

  • AIME25数学分数从80提升到90
  • LiveCodeBench从65提升到72
  • τ²-Bench工具使用从40提升到50左右
  • 全程呈稳定上升趋势!

💪 推理优势:海量样本生成无压力

Nemotron 3的高效推理吞吐量在这里发挥了重要作用!

大规模RL需要生成海量rollout样本,Nemotron 3的混合架构相比其他开源模型有显著优势!

团队还采用了:

  • 异步RL架构来解耦训练和推理
  • 多token预测加速rollout生成
  • GRPO配合masked importance sampling处理训练策略和rollout策略之间的差异

整个后训练软件栈以Apache 2.0协议开源,包括:

  • NeMo-RL(可扩展RL训练)
  • NeMo-Gym(RL环境集合)

🎯 思维预算控制:效率与精度的完美平衡

Nemotron 3还支持推理时的思维预算控制!

用户可以指定思维链的最大token数,当模型达到预算时,追加一个标记即可让模型基于部分思维链生成最终回答!

论文给出了准确率与平均生成token数之间的权衡曲线,这为实际部署中的效率-精度平衡提供了细粒度控制!

🔥 开源诚意:不只是模型,更是生态

英伟达这次的开源诚意十足:

  • 模型权重全公开
  • 超过10万亿token的训练数据
  • 预训练和后训练软件
  • 完整的训练配方
  • 所有技术细节透明

这不仅仅是开源一个模型,而是开源了整个AI训练生态!

“真正的开源不是给鱼,而是教人钓鱼;英伟达这次不仅给了鱼竿,还给了整片海洋!”

你觉得英伟达这次的全栈开源会如何改变AI行业的竞争格局?欢迎在评论区分享你的看法!

如果觉得这篇文章对你有帮助,别忘了点赞和分享给更多AI爱好者!让我们一起见证AI技术的飞速发展!

注:图片来源于网络和AI创作

END

FOCUS ON US
关注我们了解更多最新资讯
图片