NVIDIA为Google DeepMind的DiffusionGemma提供高速AI支持

Google DeepMind最新的AI模型DiffusionGemma凭借NVIDIA的GPU优化，有望重新定义本地AI文本生成。该模型于2026年6月10日发布，基于Google的Gemma 4架构构建，并针对NVIDIA的RTX GPU、RTX PRO平台和DGX Spark系统进行了优化。通过利用NVIDIA的硬件，DiffusionGemma的文本生成速度比传统的大型语言模型（LLM）快4倍。

与传统的每次生成一个token的自回归模型不同，DiffusionGemma采用并行处理方法，每步可去噪多达256个token。这使其非常适合对延迟敏感的应用程序，如聊天机器人、代理工作流和设备上的AI助手。NVIDIA的Tensor Core和CUDA技术栈使这种并行性成为可能，最大程度提高了GPU效率并显著缩短了响应时间。

文本生成的新方法

DiffusionGemma模型代表了对传统基于Transformer架构的LLM的突破。它将通常用于图像和视频生成的扩散建模集成到文本合成中。通过并行优化整个文本块，该模型在单个NVIDIA H100 Tensor Core GPU上可实现每秒生成多达1,000个token的速度。在DGX Spark系统上，它每秒可生成多达150个token，在单用户场景中超越自回归模型。

DiffusionGemma的架构基于Gemma 4，这是一种拥有260亿参数的专家混合模型，每步仅激活38亿参数，平衡了性能和效率。该模型以Apache 2.0许可证发布的开放权重设计，支持本地部署，无需依赖基于云的资源或按token计费的成本。

NVIDIA的性能提升

DiffusionGemma针对NVIDIA的生态系统进行了优化，能够高效运行在多种平台上：

NVIDIA DGX Spark：一台搭载Grace Blackwell超级芯片和128GB统一内存的个人AI超级计算机，用于本地原型开发和微调。
RTX PRO工作站：为专业人士设计，满足低延迟生成和代理循环工作流的需求。
GeForce RTX GPU：即将支持llama.cpp功能的消费级硬件，以扩大可用性。

对于对延迟敏感的应用来说，性能提升尤为显著。NVIDIA的GPU在诸如并行token生成等计算密集型任务中表现出色，充分利用了硬件的处理能力。这使得DiffusionGemma在与内存受限的自回归模型竞争中具有独特优势。

应用与市场影响

DiffusionGemma的能力不仅限于文本生成。其扩散建模的集成表明其在多模态任务（如图像和视频生成）中的潜力，使其成为开发者、研究人员和AI爱好者的多功能工具。通过开放权重和本地部署选项，它降低了实验和实际应用开发的门槛。

随着Google DeepMind不断扩展其Gemma家族（从2024年的轻量级Gemma 1开始，逐步发展到像Gemma 3n这样的多模态模型），DiffusionGemma代表了一次重要的架构飞跃。它将专家混合模型的可扩展性与基于扩散技术的生成灵活性相结合，使其成为封闭式、云端依赖型LLM的强有力替代品。

如何开始使用

开发者可以通过Hugging Face Transformers在本地测试DiffusionGemma，并可直接支持NVIDIA的RTX和DGX平台。对于特定任务的微调，可使用如NVIDIA NeMo和Unsloth等工具，以及预配置的DGX Spark脚本。NVIDIA还在build.nvidia.com提供免费的API测试。

随着行业对高速、低延迟AI的需求不断增长，DiffusionGemma的发布可能标志着向更易获取且更强大的本地AI解决方案转变，利用NVIDIA的硬件生态系统满足实际性能需求。

Image source: Shutterstock

Bookmark

NVIDIA为Google DeepMind的DiffusionGemma提供高速AI支持

文本生成的新方法

NVIDIA的性能提升

应用与市场影响

如何开始使用

Premium Sponsors

Flash News