NVIDIA发布Nemotron 3 Ultra,采用约5500亿参数MoE架构(约550亿活跃参数),专为复杂长时程Agent工作流设计。
技术创新
模型引入混合Mamba-Transformer结构、NVFP4量化(官方称吞吐提升约5倍)、多Token预测等优化,在Agent场景下任务成本可降低约30%。NVIDIA承诺完全开源权重、数据与训练配方。
开源推理栈
在闭源前沿模型竞争加剧的同时,开源大参数推理模型为企业在私有化部署、成本可控与可定制微调方面提供新选择,也将刺激Agent平台与推理中间件市场。