Google的DiffusionGemma在NVIDIA GPU上提升AI文本生成性能

Google DeepMind最新的开放模型DiffusionGemma 26B A4B以其创新的文本生成方法在AI开发圈中引起了广泛关注。该模型于2026年6月10日发布，专为NVIDIA平台优化，在单个NVIDIA H100 Tensor Core GPU上实现了每秒高达1,000个token的前所未有的速度。这一效率的飞跃对实时AI应用程序（如聊天助手、自主代理和其他高吞吐量工作流程）意义重大。

与传统的逐字生成的自回归模型不同，DiffusionGemma采用了基于扩散的方法，能够并行生成多个token。这种方法受图像生成中扩散模型的启发，不仅能提供更快、更流畅的用户体验，还显著降低了服务成本。开发者可以将该模型应用于文本和图像两种模式，并支持高达256,000个token的上下文长度。

在NVIDIA平台上的性能

DiffusionGemma针对NVIDIA GPU进行了优化，确保在各种硬件配置中具有灵活性。在个人AI超级计算机NVIDIA DGX Spark上，该模型每秒生成高达150个token，非常适合本地化的AI研究和原型开发。同时，桌面型NVIDIA DGX Station提供高达20 PFLOPS的计算能力，支持高达1万亿参数的模型，适用于更大规模的企业工作负载。

对于在桌面环境中工作的开发者来说，NVIDIA RTX和RTX PRO提供了针对本地推理优化的性能，使其成为创作者和专业人士直接将AI工作流集成到工作站的可行选择。

技术亮点

基于Gemma 4 26B A4B架构，DiffusionGemma拥有252亿个总参数，其中在推理过程中激活38亿个参数，以平衡速度和内存效率。该模型支持BF16和NVFP4精准格式，适应高性能和资源受限的环境。开发者可以通过Hugging Face等平台获取该模型，其中提供了BF16和NVFP4检查点用于原型开发和部署。

与NVIDIA NIM的企业集成

对于准备扩展的公司，NVIDIA的NIM（神经推理微服务）简化了部署过程。NIM将模型打包为容器化微服务，可集成到云端、本地或混合环境中。它还暴露了一个与OpenAI兼容的API，允许开发者在无需复杂设置的情况下无缝发送推理请求。

企业团队可以通过从NVIDIA平台下载容器、设置NIM服务器并通过标准API工作流发送推理请求来开始测试。这种便捷的集成使DiffusionGemma成为企业增强AI驱动的客户交互、自动化工作流或部署智能系统的强大工具。

战略意义

DiffusionGemma的发布反映了整个行业向非自回归和基于扩散的AI模型的更广泛转变，这是一个日益受到研究关注的领域，已在扩散语言建模等学术框架中得到探索。通过加速文本生成和降低延迟，该模型直接解决了实时AI应用中的关键限制，对于开发者和企业来说可能是一个颠覆性产品。

对于开发者来说，NVIDIA的硬件加速与DiffusionGemma的并行解码相结合，提供了一个在响应速度和成本效率方面极具吸引力的解决方案。通过NVIDIA开发者计划提供的免费原型开发以及对GPU加速端点的访问，采用门槛得以大大降低。

随着Google和NVIDIA持续推动AI创新的边界，像DiffusionGemma这样的工具可能会为速度和可扩展性设定新的基准，从而重塑企业和开发者处理AI驱动应用程序的方式。

Image source: Shutterstock

Bookmark

Google的DiffusionGemma在NVIDIA GPU上提升AI文本生成性能

在NVIDIA平台上的性能

技术亮点

与NVIDIA NIM的企业集成

战略意义

Premium Sponsors

Flash News