谷歌的 Decoupled DiLoCo 重新定义了分布式 AI 训练

谷歌的 Decoupled DiLoCo 重新定义了分布式 AI 训练 - Blockchain.News

谷歌推出了其 Decoupled DiLoCo 架构，这是分布式AI训练领域的一项突破，即使在硬件故障的情况下，也能实现前所未有的效率和弹性。根据 2026 年 4 月 23 日的公告，该系统成功地在美国四个地区训练了一个拥有 120 亿参数的模型，训练速度比传统同步方法快了 20 多倍。

DiLoCo 的亮点在于其能够利用标准的互联网带宽（2 至 5 Gbps）在地理上分散的数据中心之间保持 AI 训练的顺利进行。这消除了对昂贵定制网络基础设施的需求。不同于传统的“阻塞”瓶颈（一个系统组件必须等待另一个组件），DiLoCo 将通信集成到延长的计算期中，从而最大化吞吐量。

重新定义 AI 训练基础设施

Decoupled DiLoCo 不仅仅是速度的提升，更是 AI 训练基础设施利用现有资源方式的范式转变。通过使训练任务能够以互联网级别的带宽运行，该系统可以利用分布在各地的闲置计算能力。这种能力不仅优化了效率，还延长了旧硬件的使用寿命。

系统的一个显著特点是能够在单次训练会话中混合使用不同代的硬件，例如 TPU v6e 和 TPU v5p。谷歌的测试表明，异构设置在性能上与单代配置保持一致。这种兼容性使组织能够避免因硬件分批部署而导致的瓶颈，同时从旧设备中获得更多价值。

“跨代训练的能力缓解了物流和容量限制，”谷歌 DiLoCo 团队表示。随着硬件进步经常在全球数据中心之间不均匀地到达，这种灵活性变得日益重要。

随着 AI 模型的规模和复杂性不断膨胀，支持其训练的基础设施成为竞争的关键区分点。谷歌的全栈方法——结合硬件、软件和研究——使其能够应对下一代 AI 系统日益增长的计算需求。Decoupled DiLoCo 强调了这一战略，展示了重新思考基础设施层之间交互如何释放新的效率提升。

除了实际应用之外，这种架构还可能为分布式 AI 训练树立标准，尤其是对于希望扩展而无需彻底改造现有设置的组织而言。通过实现对混合硬件的高性能训练的普及，DiLoCo 可能会降低 AI 领域中小型企业的进入门槛。

谷歌暗示其正在探索进一步增强 AI 基础设施弹性的可能性。尽管公司没有具体说明未来的里程碑，但 DiLoCo 的成功部署标志着向可扩展、灵活且高效系统迈出的更广泛一步，这些系统能够支持 AI 研究快速发展的需求。

对于企业和研究人员而言，DiLoCo 不仅仅是技术上的成功——它还为分布式计算的未来提供了一瞥。其他组织采用类似架构的速度可能会在未来几年内影响 AI 行业的竞争格局。

Image source: Shutterstock