DeepSeek-V4 在 NVIDIA HGX B200 上解决百万令牌上下文问题
realtime news May 11, 2026 19:06
DeepSeek-V4 引入了一个具有混合注意力架构的 100 万令牌上下文窗口,将挑战转向 NVIDIA 硬件上的推理系统。
由 Together AI 推出的 DeepSeek-V4 正在通过引入 100 万令牌容量重新定义 AI 如何处理超长上下文窗口。这不仅仅是一个模型架构的突破,V4 将这一点转化为一个系统级的挑战,专注于高效的推理和内存管理。此创新运行在 NVIDIA HGX B200 硬件上,利用压缩键值 (KV) 布局、前缀缓存和混合注意力机制等先进技术解决长序列处理的瓶颈。
架构转变:压缩令牌轴
DeepSeek-V4 进步的核心是一种混合注意力机制,该机制在 KV 存储之前压缩了令牌轴。主要技术包括压缩稀疏注意力 (CSA)、高压缩注意力 (HCA) 和滑动窗口注意力 (SWA)。这种方法减少了 KV 缓存的大小,这是管理长上下文工作负载的关键因素。
作为背景信息,传统的 700 亿参数模型在 BF16 精度下,每个令牌可能需要大量的 KV 缓存,在百万令牌长度下变得难以管理。V4 的压缩技术显著缩小了这种占用,使 1M 令牌上下文成为可能,而不会使内存或带宽负担过重。具体来说,压缩后的缓存允许 NVIDIA HGX B200 硬件在测试中管理多达 3.7 百万令牌——远远超越了之前的限制。
服务挑战:多种缓存布局
DeepSeek-V4 的设计需要在推理引擎中管理三种不同的缓存类型——CSA、HCA 和 SWA。每种缓存类型都有其独特的特性,例如大小、读取模式和生命周期,需要复杂的内存管理。例如,CSA 提供对压缩区域的细粒度稀疏访问,而 HCA 允许对整个上下文进行粗粒度的全局读取。而 SWA 则保留了最近上下文的精确性,但需要更高的存储成本来处理长序列。
服务引擎必须平衡这些缓存对象,平衡驱逐策略和批处理策略以维持解码吞吐量。Together AI 的早期实现选择存储完整的 SWA 缓存以简化前缀重用,尽管这增加了内存压力。未来的迭代可能会探索命中时再计算策略,以进一步优化效率。
特定工作负载的收益
DeepSeek-V4 的优势在于长上下文、解码密集型的工作负载,例如在扩展任务中累积状态的编码代理和研究模型。这些用例依赖于减少的 KV 缓存大小来提高吞吐量和并发性。然而,像聊天机器人这样的短上下文应用程序收益较少,因为它们暴露了延迟和内核成熟度问题,而不是从缓存压缩中受益。
对于像强化学习 (RL) 展开这样的工作负载,其中每个轨迹的成本是关键指标,V4 的架构可能会重新定义经济效率。开发人员被建议在过渡到 V4 之前对特定工作负载进行基准测试,因为工作负载形状会对性能结果产生重大影响。
NVIDIA HGX B200:硬件支柱
NVIDIA HGX B200 是 DeepSeek-V4 的启动平台,为模型的压缩 KV 布局和 MXFP4 精度格式提供原生支持。此硬件针对长上下文解码任务的内存密集型需求进行了优化,允许多个并发请求在高效的服务模式下运行。Together AI 和 NVIDIA 的合作还突出了硬件与软件协同设计的努力,提升了每令牌成本效率。
下一步:测量与优化
虽然 DeepSeek-V4 为百万令牌上下文奠定了基础,但其全部潜力依赖于进一步的优化。Together AI 专注于改进缓存策略、内核成熟度和针对不同流量配置的端点配置。开发人员应在迁移到 V4 之前依据缓存命中率、解码吞吐量和每任务成本等指标评估其工作负载。
这标志着 AI 服务系统的一大进步,将超长上下文窗口的承诺变为实际可能——前提是推理堆栈能够胜任任务。
Image source: Shutterstock