DeepSeek-V4 在 NVIDIA HGX B200 上解决百万令牌上下文问题

由 Together AI 推出的 DeepSeek-V4 正在通过引入 100 万令牌容量重新定义 AI 如何处理超长上下文窗口。这不仅仅是一个模型架构的突破，V4 将这一点转化为一个系统级的挑战，专注于高效的推理和内存管理。此创新运行在 NVIDIA HGX B200 硬件上，利用压缩键值 (KV) 布局、前缀缓存和混合注意力机制等先进技术解决长序列处理的瓶颈。

架构转变：压缩令牌轴

DeepSeek-V4 进步的核心是一种混合注意力机制，该机制在 KV 存储之前压缩了令牌轴。主要技术包括压缩稀疏注意力 (CSA)、高压缩注意力 (HCA) 和滑动窗口注意力 (SWA)。这种方法减少了 KV 缓存的大小，这是管理长上下文工作负载的关键因素。

作为背景信息，传统的 700 亿参数模型在 BF16 精度下，每个令牌可能需要大量的 KV 缓存，在百万令牌长度下变得难以管理。V4 的压缩技术显著缩小了这种占用，使 1M 令牌上下文成为可能，而不会使内存或带宽负担过重。具体来说，压缩后的缓存允许 NVIDIA HGX B200 硬件在测试中管理多达 3.7 百万令牌——远远超越了之前的限制。

服务挑战：多种缓存布局

DeepSeek-V4 的设计需要在推理引擎中管理三种不同的缓存类型——CSA、HCA 和 SWA。每种缓存类型都有其独特的特性，例如大小、读取模式和生命周期，需要复杂的内存管理。例如，CSA 提供对压缩区域的细粒度稀疏访问，而 HCA 允许对整个上下文进行粗粒度的全局读取。而 SWA 则保留了最近上下文的精确性，但需要更高的存储成本来处理长序列。

服务引擎必须平衡这些缓存对象，平衡驱逐策略和批处理策略以维持解码吞吐量。Together AI 的早期实现选择存储完整的 SWA 缓存以简化前缀重用，尽管这增加了内存压力。未来的迭代可能会探索命中时再计算策略，以进一步优化效率。

特定工作负载的收益

DeepSeek-V4 的优势在于长上下文、解码密集型的工作负载，例如在扩展任务中累积状态的编码代理和研究模型。这些用例依赖于减少的 KV 缓存大小来提高吞吐量和并发性。然而，像聊天机器人这样的短上下文应用程序收益较少，因为它们暴露了延迟和内核成熟度问题，而不是从缓存压缩中受益。

对于像强化学习 (RL) 展开这样的工作负载，其中每个轨迹的成本是关键指标，V4 的架构可能会重新定义经济效率。开发人员被建议在过渡到 V4 之前对特定工作负载进行基准测试，因为工作负载形状会对性能结果产生重大影响。

NVIDIA HGX B200：硬件支柱

NVIDIA HGX B200 是 DeepSeek-V4 的启动平台，为模型的压缩 KV 布局和 MXFP4 精度格式提供原生支持。此硬件针对长上下文解码任务的内存密集型需求进行了优化，允许多个并发请求在高效的服务模式下运行。Together AI 和 NVIDIA 的合作还突出了硬件与软件协同设计的努力，提升了每令牌成本效率。

下一步：测量与优化

虽然 DeepSeek-V4 为百万令牌上下文奠定了基础，但其全部潜力依赖于进一步的优化。Together AI 专注于改进缓存策略、内核成熟度和针对不同流量配置的端点配置。开发人员应在迁移到 V4 之前依据缓存命中率、解码吞吐量和每任务成本等指标评估其工作负载。

这标志着 AI 服务系统的一大进步，将超长上下文窗口的承诺变为实际可能——前提是推理堆栈能够胜任任务。

Image source: Shutterstock

Bookmark