DeepSeek V4 搭载 NVIDIA Blackwell 发布,实现 100 万 Token 上下文 AI - Blockchain.News

DeepSeek V4 搭载 NVIDIA Blackwell 发布,实现 100 万 Token 上下文 AI

realtime news Apr 25, 2026 00:19

DeepSeek V4 使用 NVIDIA Blackwell 提供支持,提供 100 万 Token 上下文 AI,同时减少内存开销并加快推理速度,专注于长上下文工作流。

DeepSeek V4 搭载 NVIDIA Blackwell 发布,实现 100 万 Token 上下文 AI

DeepSeek 推出了其第四代AI模型 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash,突破了长上下文推理的界限。这些模型现已通过 NVIDIA 的 Blackwell GPU 加速端点提供,设计支持长达 100 万 Token 上下文窗口,为高级编码、文档分析和自主 AI 工作流等应用带来了显著进步。

旗舰版 DeepSeek-V4-Pro 拥有 1.6 万亿总参数和 490 亿活动参数,而更注重高效的 DeepSeek-V4-Flash 则具备 2840 亿总参数和 130 亿活动参数。这两个模型都采用 MIT 许可证,根据不同的使用场景提供选择——Pro 适用于高级推理,Flash 则适合高速度任务,如摘要和路由。

长上下文 AI 的架构突破

DeepSeek V4 基于公司的专家混合(Mixture-of-Experts,MoE)架构进行开发,并引入了旨在克服长上下文推理挑战的创新技术。新的混合注意力机制结合了压缩稀疏注意力(CSA)和高度压缩注意力(HCA),相比其前代 DeepSeek V3.2,实现了每 Token 推理浮点运算减少 73% 和 KV 缓存内存使用减少 90%。

为什么这很重要?随着上下文窗口的扩展,管理内存和计算效率变得至关重要。长上下文 AI 应用,如多轮推理、工具集成和复杂工作流,要求模型能够在无瓶颈的情况下保留并处理大量上下文数据。DeepSeek V4 的改进解决了这些痛点,使其成为希望扩展 AI 驱动系统的企业的有力选择。

与 NVIDIA Blackwell 的集成

DeepSeek V4 与 NVIDIA 的 Blackwell 平台紧密集成,利用其 GPU 加速的基础设施提供可扩展性能。在 NVIDIA GB200 NVL72 硬件上的初步测试显示,DeepSeek-V4-Pro 可实现每用户每秒超过 150 Token 的推理速度,并且正在进行的优化预计将进一步提高吞吐量。

Blackwell 的架构专为万亿参数智能模型设计,非常适合 DeepSeek V4 的计算需求。开发者可以通过 NVIDIA 的托管端点(build.nvidia.com)原型化这些模型,或使用 NVIDIA NIM 直接部署以满足定制基础设施需求。

目标应用场景和部署灵活性

DeepSeek V4 处理 100 万 Token 上下文的能力为长上下文编码、基于检索的工作流和自主 AI 打开了新的机会。其灵活性通过 SGLang 和 vLLM 等部署工具进一步增强,这些工具提供根据不同延迟和吞吐需求定制的解决方案,从低延迟设置到大规模操作的多 GPU 配置。

这种对部署灵活性的关注反映了更广泛的趋势:随着开放 AI 模型接近智能前沿,企业正将注意力从模型选择转向基础设施优化。最终目标是降低每 Token 成本,同时保持性能,而 DeepSeek V4 与这一优先目标完美契合。

快速上手

开发者可以通过多个渠道访问 DeepSeek V4,包括 Hugging Face 和 NVIDIA 的 API 端点。对于希望将长上下文 AI 集成到工作流中的企业和开发者来说,DeepSeek V4 提供了一个结合可扩展性、高效性和高级推理能力的强大选择。

凭借其架构上的进步和与 NVIDIA Blackwell 的无缝集成,DeepSeek V4 为长上下文 AI 树立了新标杆。随着对自主系统和广泛上下文窗口需求的增长,这类模型将在塑造下一代 AI 应用中发挥关键作用。

Image source: Shutterstock