NVIDIA为Google DeepMind的DiffusionGemma提供高速AI支持
realtime news Jun 10, 2026 16:57
NVIDIA优化了Google DeepMind的DiffusionGemma,通过RTX GPU和DGX系统实现超高速的本地AI文本生成。
Google DeepMind最新的AI模型DiffusionGemma凭借NVIDIA的GPU优化,有望重新定义本地AI文本生成。该模型于2026年6月10日发布,基于Google的Gemma 4架构构建,并针对NVIDIA的RTX GPU、RTX PRO平台和DGX Spark系统进行了优化。通过利用NVIDIA的硬件,DiffusionGemma的文本生成速度比传统的大型语言模型(LLM)快4倍。
与传统的每次生成一个token的自回归模型不同,DiffusionGemma采用并行处理方法,每步可去噪多达256个token。这使其非常适合对延迟敏感的应用程序,如聊天机器人、代理工作流和设备上的AI助手。NVIDIA的Tensor Core和CUDA技术栈使这种并行性成为可能,最大程度提高了GPU效率并显著缩短了响应时间。
文本生成的新方法
DiffusionGemma模型代表了对传统基于Transformer架构的LLM的突破。它将通常用于图像和视频生成的扩散建模集成到文本合成中。通过并行优化整个文本块,该模型在单个NVIDIA H100 Tensor Core GPU上可实现每秒生成多达1,000个token的速度。在DGX Spark系统上,它每秒可生成多达150个token,在单用户场景中超越自回归模型。
DiffusionGemma的架构基于Gemma 4,这是一种拥有260亿参数的专家混合模型,每步仅激活38亿参数,平衡了性能和效率。该模型以Apache 2.0许可证发布的开放权重设计,支持本地部署,无需依赖基于云的资源或按token计费的成本。
NVIDIA的性能提升
DiffusionGemma针对NVIDIA的生态系统进行了优化,能够高效运行在多种平台上:
- NVIDIA DGX Spark:一台搭载Grace Blackwell超级芯片和128GB统一内存的个人AI超级计算机,用于本地原型开发和微调。
- RTX PRO工作站:为专业人士设计,满足低延迟生成和代理循环工作流的需求。
- GeForce RTX GPU:即将支持llama.cpp功能的消费级硬件,以扩大可用性。
对于对延迟敏感的应用来说,性能提升尤为显著。NVIDIA的GPU在诸如并行token生成等计算密集型任务中表现出色,充分利用了硬件的处理能力。这使得DiffusionGemma在与内存受限的自回归模型竞争中具有独特优势。
应用与市场影响
DiffusionGemma的能力不仅限于文本生成。其扩散建模的集成表明其在多模态任务(如图像和视频生成)中的潜力,使其成为开发者、研究人员和AI爱好者的多功能工具。通过开放权重和本地部署选项,它降低了实验和实际应用开发的门槛。
随着Google DeepMind不断扩展其Gemma家族(从2024年的轻量级Gemma 1开始,逐步发展到像Gemma 3n这样的多模态模型),DiffusionGemma代表了一次重要的架构飞跃。它将专家混合模型的可扩展性与基于扩散技术的生成灵活性相结合,使其成为封闭式、云端依赖型LLM的强有力替代品。
如何开始使用
开发者可以通过Hugging Face Transformers在本地测试DiffusionGemma,并可直接支持NVIDIA的RTX和DGX平台。对于特定任务的微调,可使用如NVIDIA NeMo和Unsloth等工具,以及预配置的DGX Spark脚本。NVIDIA还在build.nvidia.com提供免费的API测试。
随着行业对高速、低延迟AI的需求不断增长,DiffusionGemma的发布可能标志着向更易获取且更强大的本地AI解决方案转变,利用NVIDIA的硬件生态系统满足实际性能需求。
Image source: Shutterstock