NVIDIA Vera Rubin 通过 Groq 3 LPX 应对 Agentic AI 扩展挑战

NVIDIA 推出了其 Vera Rubin 平台与 Groq 3 LPX 推理加速器结合使用的方式，以应对扩展 agentic AI 工作负载的巨大挑战。这些工作负载依赖于万亿参数模型和长上下文推理，是下一代高级 AI 服务的关键所在。该平台在低延迟、高吞吐量的 AI 处理方面承诺实现突破，与之前的 NVIDIA 架构相比，每兆瓦效率提高多达 35 倍。

Agentic 推理从根本上改变了 AI 模型的运行方式。与处理静态输入的传统推理工作负载不同，agentic 系统涉及非确定性轨迹——行动、观察和决策——当模型每次会话处理数百个推理请求时，这些都会成倍增加延迟挑战。Vera Rubin NVL72 计算引擎和 Groq 3 LPX 加速器通过联合设计解决了这些问题，将计算、内存和网络集成到前所未有的规模。

重新思考 Agentic AI 的扩展

传统数据中心难以应对 agentic 工作负载，这些工作负载需要多轮模型请求、小批量和超低延迟。万亿参数模型由于其庞大的键值（KV）缓存和广泛的上下文窗口而增加了复杂性。NVIDIA 的解决方案使用其 Groq 3 LPX 加速器，该加速器采用高辐射点对点链接、编译器调度的数据移动和硬件驱动的同步时序。这些技术协同工作，实现了数千个互联芯片之间的确定性通信。

每个 Groq 3 LPX 单元提供 2.5 TB/s 的带宽，在机架级别可扩展至 640 TB/s。这种高带宽、低延迟的设计确保了即使工作负载扩展时也能保持可预测的性能。相比之下，传统架构在多芯片通信中面临瓶颈，而 LPX 平台通过静态、编译器规划的数据传输克服了这些问题。

Vera Rubin NVL72：超大规模 AI 的支柱

Vera Rubin NVL72 通过其强大的计算能力进一步补充了 Groq 3 LPX。每个机架可提供高达 3,600 petaflops 的 NVFP4 计算能力和 20.7 TB 的 HBM4 内存，专为高并发 AI 任务进行了优化。这种协同作用使 NVIDIA 的基础设施能够无缝处理预填充、长上下文解码和多智能体推理工作负载。

根据 NVIDIA 的说法，该平台通过降低每个 token 的延迟和推理成本，为 agentic AI 工作负载创造了 10 倍的收入机会。凭借确定性执行和长上下文支持，该系统可以在不牺牲速度或准确性的情况下处理最前沿的模型，这是高级 AI 服务的基本要求。

市场影响

NVIDIA 的 Vera Rubin 平台被定位为超大规模 AI 工厂和云提供商的变革性解决方案。该平台于 2026 年 3 月正式宣布并进入生产阶段，这是 NVIDIA 为保持在 AI 基础设施领域的主导地位而迈出的战略飞跃。与美光公司合作开发的高带宽内存（HBM4）的使用，进一步突显了公司在降低成本和提高万亿参数模型效率方面的关注。

对于投资者而言，NVIDIA 在 agentic AI 领域的进步可能会大幅推动其数据中心部门的增长，而这一部门已经是主要收入来源。该平台的高效扩展能力可能会吸引企业和开发者对大规模生成式 AI 系统的需求。截至 2026 年 5 月 14 日，NVIDIA 的股价为 $235.66，在过去 24 小时内上涨了 4.35%，市场似乎对这些发展持乐观态度。

展望未来

NVIDIA 的 Vera Rubin 平台与 Groq 3 LPX 相结合，解决了扩展 agentic AI 工作负载的关键瓶颈。随着对高级 AI 服务需求的增长，这种联合设计的架构使 NVIDIA 能够在快速发展的市场中占据领先地位。随着生产步伐加快和生态系统支持的扩大，NVIDIA 的投资者和 AI 行业利益相关者应关注该平台在实际部署中的表现及其收入加速的潜力。

Image source: Shutterstock

Bookmark

NVIDIA Vera Rubin 通过 Groq 3 LPX 应对 Agentic AI 扩展挑战

重新思考 Agentic AI 的扩展

Vera Rubin NVL72：超大规模 AI 的支柱

市场影响

展望未来

Premium Sponsors

Flash News