NVIDIA的Agentic AI愿景：极致协同设计与Vera Rubin

NVIDIA推出了一种应对代理型AI系统日益复杂的方式，即“极致协同设计”。这一范式通过硬件和软件的创新协调，为可扩展且高性价比的生成式AI提供了支持。该策略的核心是Vera Rubin平台，这是一个专为应对AI代理独特挑战而设计的基础设施。AI代理超越了传统聊天机器人模型，能够执行动态、自主的工作流。

代理型系统的兴起标志着生成式AI的下一次演变。与传统聊天机器人采用线性、可预测的交互模型不同，AI代理能够自行管理上下文窗口、调用外部工具，并生成子代理以执行专业任务。这种架构转变对令牌消耗、上下文长度和延迟提出了巨大需求，从而在扩展这些系统时带来了经济和技术上的挑战。

NVIDIA的Vera Rubin平台：全新基础

NVIDIA的Vera Rubin平台通过多方面的方法来应对这些挑战。硬件堆栈包括Vera Rubin NVL72 GPU等组件，该GPU能够以远低于传统设置的成本支持长上下文管道。与之配套的是Vera CPU，优化了工具执行和缓存管理，以实现低延迟性能。关键的网络创新（如NVLink 6和Spectrum-X以太网）确保了代理之间的无缝协调，在广泛的工作流中实现低延迟和高吞吐量。

软件层通过诸如推测解码等工具进一步提升了性能，推测解码加速了令牌生成，而NVFP4是一种精度优化框架，在不影响模型智能的情况下减少了内存负担。这些改进使Vera Rubin平台能够以每秒超过400个令牌的速度处理拥有400k上下文窗口的万亿参数模型，从而在规模上实现高质量的实时AI交互。

为什么代理型AI需要极致协同设计

传统的计算策略在应用于代理型工作负载时显得不足。根据Anthropic的报告，代理消耗的令牌数量是标准聊天机器人的15倍，极大地挑战了令牌吞吐量和延迟。NVIDIA的极致协同设计方法通过将特定任务（如令牌缓存、上下文压缩和推理优化）映射到专用硬件和软件来解决这些瓶颈。

例如，Vera Rubin平台利用高带宽内存（HBM）高效处理大量令牌，而其SRAM优先架构在令牌生成中最小化了抖动。这些创新不仅降低了成本，还确保了代理型系统能够维持终端用户应用所需的速度和交互性能。

AI经济的意义

扩展代理型AI系统的能力对从客户服务到自主系统的各行各业都有深远意义。通过实现更高效的令牌处理并降低每令牌成本，像Vera Rubin这样的平台有望加速生成式AI的普及并解锁新的应用场景。这一转变也凸显了NVIDIA作为AI基础设施领导者的战略地位，其极致协同设计方法为该领域的性能和可扩展性设定了新的标杆。

随着AI代理的普及，对强大且高性价比基础设施的需求只会不断增长。NVIDIA的Vera Rubin平台提供了实现这一未来的一个前瞻，结合最先进的硬件和软件，以应对未来AI工作负载的挑战。

Image source: Shutterstock

Bookmark

NVIDIA的Agentic AI愿景：极致协同设计与Vera Rubin

NVIDIA的Vera Rubin平台：全新基础

为什么代理型AI需要极致协同设计

AI经济的意义

Premium Sponsors

Flash News