DeepSeek V4 搭载 NVIDIA Blackwell 发布，实现 100 万 Token 上下文 AI

DeepSeek V4 搭载 NVIDIA Blackwell 发布，实现 100 万 Token 上下文 AI - Blockchain.News

DeepSeek 推出了其第四代AI模型 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash，突破了长上下文推理的界限。这些模型现已通过 NVIDIA 的 Blackwell GPU 加速端点提供，设计支持长达 100 万 Token 上下文窗口，为高级编码、文档分析和自主 AI 工作流等应用带来了显著进步。

旗舰版 DeepSeek-V4-Pro 拥有 1.6 万亿总参数和 490 亿活动参数，而更注重高效的 DeepSeek-V4-Flash 则具备 2840 亿总参数和 130 亿活动参数。这两个模型都采用 MIT 许可证，根据不同的使用场景提供选择——Pro 适用于高级推理，Flash 则适合高速度任务，如摘要和路由。

长上下文 AI 的架构突破

DeepSeek V4 基于公司的专家混合（Mixture-of-Experts，MoE）架构进行开发，并引入了旨在克服长上下文推理挑战的创新技术。新的混合注意力机制结合了压缩稀疏注意力（CSA）和高度压缩注意力（HCA），相比其前代 DeepSeek V3.2，实现了每 Token 推理浮点运算减少 73% 和 KV 缓存内存使用减少 90%。

为什么这很重要？随着上下文窗口的扩展，管理内存和计算效率变得至关重要。长上下文 AI 应用，如多轮推理、工具集成和复杂工作流，要求模型能够在无瓶颈的情况下保留并处理大量上下文数据。DeepSeek V4 的改进解决了这些痛点，使其成为希望扩展 AI 驱动系统的企业的有力选择。

与 NVIDIA Blackwell 的集成

DeepSeek V4 与 NVIDIA 的 Blackwell 平台紧密集成，利用其 GPU 加速的基础设施提供可扩展性能。在 NVIDIA GB200 NVL72 硬件上的初步测试显示，DeepSeek-V4-Pro 可实现每用户每秒超过 150 Token 的推理速度，并且正在进行的优化预计将进一步提高吞吐量。

Blackwell 的架构专为万亿参数智能模型设计，非常适合 DeepSeek V4 的计算需求。开发者可以通过 NVIDIA 的托管端点（build.nvidia.com）原型化这些模型，或使用 NVIDIA NIM 直接部署以满足定制基础设施需求。

目标应用场景和部署灵活性

DeepSeek V4 处理 100 万 Token 上下文的能力为长上下文编码、基于检索的工作流和自主 AI 打开了新的机会。其灵活性通过 SGLang 和 vLLM 等部署工具进一步增强，这些工具提供根据不同延迟和吞吐需求定制的解决方案，从低延迟设置到大规模操作的多 GPU 配置。

这种对部署灵活性的关注反映了更广泛的趋势：随着开放 AI 模型接近智能前沿，企业正将注意力从模型选择转向基础设施优化。最终目标是降低每 Token 成本，同时保持性能，而 DeepSeek V4 与这一优先目标完美契合。

快速上手

开发者可以通过多个渠道访问 DeepSeek V4，包括 Hugging Face 和 NVIDIA 的 API 端点。对于希望将长上下文 AI 集成到工作流中的企业和开发者来说，DeepSeek V4 提供了一个结合可扩展性、高效性和高级推理能力的强大选择。

凭借其架构上的进步和与 NVIDIA Blackwell 的无缝集成，DeepSeek V4 为长上下文 AI 树立了新标杆。随着对自主系统和广泛上下文窗口需求的增长，这类模型将在塑造下一代 AI 应用中发挥关键作用。

Image source: Shutterstock

DeepSeek V4 搭载 NVIDIA Blackwell 发布，实现 100 万 Token 上下文 AI

长上下文 AI 的架构突破

与 NVIDIA Blackwell 的集成

目标应用场景和部署灵活性

快速上手

Premium Sponsors

Flash News