NVIDIA的Nemotron 3 Ultra重新定义了长时间运行代理的人工智能
realtime news Jun 04, 2026 14:02
NVIDIA的Nemotron 3 Ultra,这款具有5500亿参数的AI模型,为复杂工作流程提供了更快、更高性价比的推理能力,让长时间运行的代理表现更佳。
NVIDIA推出了Nemotron 3 Ultra,这是其迄今为止最先进的AI模型,专为复杂工作流程中的长时间运行代理设计。该模型拥有5500亿参数(同时激活550亿参数),专为需要深度推理的任务量身定制,例如编程、研究综合和企业自动化。据NVIDIA称,与类似的开放模型相比,它的推理速度提高了五倍,运营成本降低了30%。
与单回合聊天机器人不同,长时间运行的代理跨多个步骤操作,能够保持上下文,调用子代理并管理庞大的数据流。Nemotron 3 Ultra的混合Mamba-Transformer架构和LatentMixture-of-Experts (LatentMoE) 路由解决了这些挑战,使其能够高效处理每个上下文窗口中多达一百万个token的工作流程。
性能指标与效率
在与GLM 5.1和Kimi K2.6等领先模型的对比测试中,Nemotron 3 Ultra在多个关键领域表现优异。特别是在PinchBench代理生产力测试中获得了91%的得分,并以95%的准确率领先于Ruler @1M基准测试中的长上下文任务。这些结果突出了其在处理复杂推理任务时的高效性和高精度。
效率还体现在成本优化上。Nemotron 3 Ultra在每次工作流程回合中使用更少的token,大幅降低了企业和开发者的运营成本。这使其成为管理大规模代理系统的团队的有吸引力的选择。
关键创新
Nemotron 3 Ultra引入了多项技术突破:
- 多Token预测(MTP):通过一次性预测多个token减少生成时间,提高复杂任务的吞吐量。
- NVFP4精度:确保与NVIDIA GPU架构的兼容性,并提供高达5倍于传统方法(如BF16)的吞吐量。
- 代理控制的后训练优化:针对多回合工作流程进行了优化,使代理能够动态适应错误或不断变化的任务需求。
应用场景与生态系统
NVIDIA将Nemotron 3 Ultra视为下一代自主系统的核心。其协调子代理的能力使其在企业自动化、半导体设计和法律研究等领域尤为有用。例如,该模型增强的推理能力提高了在LegalBench和Terminal-Bench 2.0等领域特定基准测试中的准确性。
该模型可以无缝集成到NVIDIA的生态系统中,包括OpenShell运行时和Nemotron Coalition框架。开发者可以通过Hugging Face、Anaconda和AWS JumpStart等平台访问,并支持使用NVIDIA的NeMo库进行定制微调。
意义何在
Nemotron 3 Ultra的推出突显了NVIDIA在代理型AI领域的主导地位。通过解决长时间工作流程的低效和成本挑战,这款模型将NVIDIA定位为开放AI创新的领导者。凭借宽松的OpenMDW-1.1许可,该公司旨在加速跨行业的采用,同时促进透明性和协作。
对于企业和开发者来说,Nemotron 3 Ultra提供了尖端性能与成本效益的平衡,为AI驱动的工作流程设定了新标准。随着基于代理的系统在自动化和研究中变得越来越重要,Nemotron 3 Ultra预计将在塑造AI未来方面发挥关键作用。
Image source: Shutterstock