MiniMax M2.7 在 NVIDIA 平台上提升 AI 工作流程 [E2E] - Blockchain.News

MiniMax M2.7 在 NVIDIA 平台上提升 AI 工作流程 [E2E]

realtime news Apr 12, 2026 11:45

NVIDIA 的 MiniMax M2.7 通过先进的 MoE 架构和开源集成,为复杂 AI 应用带来高效性和可扩展性。 [E2E]

MiniMax M2.7 在 NVIDIA 平台上提升 AI 工作流程 [E2E]

MiniMax M2.7 是 NVIDIA MiniMax 系列的最新型号,在复杂 AI 应用的可扩展智能化工作流程中带来了显著进步。该产品于 2026 年 4 月 12 日发布,基于 MiniMax M2.5 的基础进行了改进,采用增强的稀疏型专家混合(MoE)架构,使其成为推理任务、机器学习研究以及工程工作流程的关键参与者。

MiniMax M2.7 模型总参数数量高达 2300 亿,但通过推理时仅激活约 4.3% 的参数(每个 token 激活约 100 亿参数),从而在保持高效的同时实现能力最大化。这得益于智能路由机制,该机制为每个输入选择相关专家,从而减少计算开销而不牺牲性能。

主要功能与架构

该 MoE 设计结合了旋转位置嵌入 (RoPE) 和查询-键值平方根归一化 (QK RMSNorm) 等先进技术,从而支持大规模的稳定训练。其高达 200,000 个 token 的扩展输入上下文长度使其特别适合长文本推理和编码挑战。在优化的 top-k 路由系统支持下,每个 token 激活 256 个本地专家,模型在可扩展性和精确度之间实现了有效平衡。

值得一提的是,NVIDIA 已将 MiniMax M2.7 集成到其开源生态系统中,通过 vLLM 和 SGLang 等框架进一步优化推理性能。QK RMSNorm 内核允许计算任务与通信任务之间更好地重叠,而 FP8 MoE 模块化内核则在 NVIDIA Blackwell Ultra 等高性能 GPU 上提高了吞吐量。

性能提升指标

NVIDIA 报告称,一个月内通过 vLLM 优化,其吞吐量提高了高达 2.5 倍,而在类似条件下,SGLang 实现的吞吐量提升达到 2.7 倍。

vLLM 吞吐量
图:通过 vLLM 优化 MiniMax M2 系列的吞吐量改进

部署选项

MiniMax M2.7 可通过多种平台部署,以满足不同的需求:

  • NVIDIA Brev Cloud: 一键设置,为利用 GPU 加速环境的开发人员提供支持。
  • NVIDIA NIM 微服务: 可在本地或云环境中部署的企业级容器化解决方案。
  • NeMo 框架: 通过 Hugging Face 和强化学习库提供微调选项,以实现定制化应用。

重要意义

此发布进一步巩固了 NVIDIA 在高效扩展大型语言模型领域的领导地位,同时通过开放标准和与 Hugging Face 等流行框架的集成,推动了行业的民主化发展。对于从事实时自主代理或大规模推理任务的开发人员来说,MiniMax M2.7 提供了一种兼具性能与成本效益的强大解决方案。

用户可以通过 build.nvidia.com 今日起部署该模型,直接测试其功能或无缝集成到生产环境中。

Image source: Shutterstock