NVIDIA的Nemotron 3 Ultra重新定义了长时间运行代理的人工智能

NVIDIA推出了Nemotron 3 Ultra，这是其迄今为止最先进的AI模型，专为复杂工作流程中的长时间运行代理设计。该模型拥有5500亿参数（同时激活550亿参数），专为需要深度推理的任务量身定制，例如编程、研究综合和企业自动化。据NVIDIA称，与类似的开放模型相比，它的推理速度提高了五倍，运营成本降低了30%。

与单回合聊天机器人不同，长时间运行的代理跨多个步骤操作，能够保持上下文，调用子代理并管理庞大的数据流。Nemotron 3 Ultra的混合Mamba-Transformer架构和LatentMixture-of-Experts (LatentMoE) 路由解决了这些挑战，使其能够高效处理每个上下文窗口中多达一百万个token的工作流程。

性能指标与效率

在与GLM 5.1和Kimi K2.6等领先模型的对比测试中，Nemotron 3 Ultra在多个关键领域表现优异。特别是在PinchBench代理生产力测试中获得了91%的得分，并以95%的准确率领先于Ruler @1M基准测试中的长上下文任务。这些结果突出了其在处理复杂推理任务时的高效性和高精度。

效率还体现在成本优化上。Nemotron 3 Ultra在每次工作流程回合中使用更少的token，大幅降低了企业和开发者的运营成本。这使其成为管理大规模代理系统的团队的有吸引力的选择。

关键创新

Nemotron 3 Ultra引入了多项技术突破：

多Token预测（MTP）：通过一次性预测多个token减少生成时间，提高复杂任务的吞吐量。
NVFP4精度：确保与NVIDIA GPU架构的兼容性，并提供高达5倍于传统方法（如BF16）的吞吐量。
代理控制的后训练优化：针对多回合工作流程进行了优化，使代理能够动态适应错误或不断变化的任务需求。

应用场景与生态系统

NVIDIA将Nemotron 3 Ultra视为下一代自主系统的核心。其协调子代理的能力使其在企业自动化、半导体设计和法律研究等领域尤为有用。例如，该模型增强的推理能力提高了在LegalBench和Terminal-Bench 2.0等领域特定基准测试中的准确性。

该模型可以无缝集成到NVIDIA的生态系统中，包括OpenShell运行时和Nemotron Coalition框架。开发者可以通过Hugging Face、Anaconda和AWS JumpStart等平台访问，并支持使用NVIDIA的NeMo库进行定制微调。

意义何在

Nemotron 3 Ultra的推出突显了NVIDIA在代理型AI领域的主导地位。通过解决长时间工作流程的低效和成本挑战，这款模型将NVIDIA定位为开放AI创新的领导者。凭借宽松的OpenMDW-1.1许可，该公司旨在加速跨行业的采用，同时促进透明性和协作。

对于企业和开发者来说，Nemotron 3 Ultra提供了尖端性能与成本效益的平衡，为AI驱动的工作流程设定了新标准。随着基于代理的系统在自动化和研究中变得越来越重要，Nemotron 3 Ultra预计将在塑造AI未来方面发挥关键作用。

Image source: Shutterstock

Bookmark

NVIDIA的Nemotron 3 Ultra重新定义了长时间运行代理的人工智能

性能指标与效率

关键创新

应用场景与生态系统

意义何在

Premium Sponsors

Flash News