NVIDIA通过GB200 NVL72和OpenAI gpt-oss模型提升AI性能
realtime news Aug 05, 2025 18:27
NVIDIA与OpenAI合作增强AI能力,通过其GB200 NVL72系统优化gpt-oss模型,实现高达150万TPS。

NVIDIA与OpenAI合作,宣布在AI性能方面取得了重大进展,利用NVIDIA GB200 NVL72系统的强大功能。根据NVIDIA的说法,最近推出的OpenAI gpt-oss-20b和gpt-oss-120b模型承诺提供高达每秒150万个token(TPS),标志着AI处理能力的重大飞跃。
增强的AI能力
gpt-oss模型以其文本推理能力而闻名,使用混合专家(MoE)架构和SwigGLU激活构建。这些模型利用RoPE作为注意力层,支持128k上下文长度,并针对NVIDIA的Blackwell架构进行了优化。它们以FP4精度发布,与80 GB数据中心GPU兼容,并针对NVIDIA的先进硬件进行了优化。
合作开发
NVIDIA与OpenAI的合作扩展到各种开源框架,包括Hugging Face Transformers和NVIDIA TensorRT-LLM,以增强模型性能和开发者的可用性。特别是gpt-oss-120b模型,需要进行大量训练,总计超过210万GPU小时。
技术规格
gpt-oss-20b和gpt-oss-120b模型具有一系列规格,以满足不同的AI需求。这些包括不同的Transformer块数量、总参数和专家配置,旨在优化NVIDIA平台上的推理性能。
部署选项
NVIDIA为开发者提供多种部署选项,包括使用vLLM和TensorRT-LLM进行服务器设置和性能优化。GB200 NVL72系统设计用于处理高吞吐量,能够高效地容纳多达50,000名并发用户。
未来展望
随着这些先进模型的引入,NVIDIA旨在支持从云到边缘的广泛AI应用。他们在各种平台上整合gpt-oss模型的努力突显了提升AI基础设施和开发者体验的承诺。
有关这些模型的部署和功能的更多详细信息,请访问NVIDIA博客。
Image source: Shutterstock