Google的DiffusionGemma在NVIDIA GPU上提升AI文本生成性能
realtime news Jun 10, 2026 16:48
DiffusionGemma引入并行文本生成,在NVIDIA GPU上实现高达每秒1,000个token的处理速度,为开发者重新定义AI效率。
Google DeepMind最新的开放模型DiffusionGemma 26B A4B以其创新的文本生成方法在AI开发圈中引起了广泛关注。该模型于2026年6月10日发布,专为NVIDIA平台优化,在单个NVIDIA H100 Tensor Core GPU上实现了每秒高达1,000个token的前所未有的速度。这一效率的飞跃对实时AI应用程序(如聊天助手、自主代理和其他高吞吐量工作流程)意义重大。
与传统的逐字生成的自回归模型不同,DiffusionGemma采用了基于扩散的方法,能够并行生成多个token。这种方法受图像生成中扩散模型的启发,不仅能提供更快、更流畅的用户体验,还显著降低了服务成本。开发者可以将该模型应用于文本和图像两种模式,并支持高达256,000个token的上下文长度。
在NVIDIA平台上的性能
DiffusionGemma针对NVIDIA GPU进行了优化,确保在各种硬件配置中具有灵活性。在个人AI超级计算机NVIDIA DGX Spark上,该模型每秒生成高达150个token,非常适合本地化的AI研究和原型开发。同时,桌面型NVIDIA DGX Station提供高达20 PFLOPS的计算能力,支持高达1万亿参数的模型,适用于更大规模的企业工作负载。
对于在桌面环境中工作的开发者来说,NVIDIA RTX和RTX PRO提供了针对本地推理优化的性能,使其成为创作者和专业人士直接将AI工作流集成到工作站的可行选择。
技术亮点
基于Gemma 4 26B A4B架构,DiffusionGemma拥有252亿个总参数,其中在推理过程中激活38亿个参数,以平衡速度和内存效率。该模型支持BF16和NVFP4精准格式,适应高性能和资源受限的环境。开发者可以通过Hugging Face等平台获取该模型,其中提供了BF16和NVFP4检查点用于原型开发和部署。
与NVIDIA NIM的企业集成
对于准备扩展的公司,NVIDIA的NIM(神经推理微服务)简化了部署过程。NIM将模型打包为容器化微服务,可集成到云端、本地或混合环境中。它还暴露了一个与OpenAI兼容的API,允许开发者在无需复杂设置的情况下无缝发送推理请求。
企业团队可以通过从NVIDIA平台下载容器、设置NIM服务器并通过标准API工作流发送推理请求来开始测试。这种便捷的集成使DiffusionGemma成为企业增强AI驱动的客户交互、自动化工作流或部署智能系统的强大工具。
战略意义
DiffusionGemma的发布反映了整个行业向非自回归和基于扩散的AI模型的更广泛转变,这是一个日益受到研究关注的领域,已在扩散语言建模等学术框架中得到探索。通过加速文本生成和降低延迟,该模型直接解决了实时AI应用中的关键限制,对于开发者和企业来说可能是一个颠覆性产品。
对于开发者来说,NVIDIA的硬件加速与DiffusionGemma的并行解码相结合,提供了一个在响应速度和成本效率方面极具吸引力的解决方案。通过NVIDIA开发者计划提供的免费原型开发以及对GPU加速端点的访问,采用门槛得以大大降低。
随着Google和NVIDIA持续推动AI创新的边界,像DiffusionGemma这样的工具可能会为速度和可扩展性设定新的基准,从而重塑企业和开发者处理AI驱动应用程序的方式。
Image source: Shutterstock