NVIDIA发布Nemotron 3 Ultra：550B参数开源模型加速AI Agent推理

2026-06-04 16:00:00

NVIDIA发布Nemotron 3 Ultra，采用约5500亿参数MoE架构（约550亿活跃参数），专为复杂长时程Agent工作流设计。

技术创新

模型引入混合Mamba-Transformer结构、NVFP4量化（官方称吞吐提升约5倍）、多Token预测等优化，在Agent场景下任务成本可降低约30%。NVIDIA承诺完全开源权重、数据与训练配方。

在闭源前沿模型竞争加剧的同时，开源大参数推理模型为企业在私有化部署、成本可控与可定制微调方面提供新选择，也将刺激Agent平台与推理中间件市场。