MiniMax M2.7 在 NVIDIA 平台上提升 AI 工作流程 [E2E]
realtime news Apr 12, 2026 11:45
NVIDIA 的 MiniMax M2.7 通过先进的 MoE 架构和开源集成,为复杂 AI 应用带来高效性和可扩展性。 [E2E]
MiniMax M2.7 是 NVIDIA MiniMax 系列的最新型号,在复杂 AI 应用的可扩展智能化工作流程中带来了显著进步。该产品于 2026 年 4 月 12 日发布,基于 MiniMax M2.5 的基础进行了改进,采用增强的稀疏型专家混合(MoE)架构,使其成为推理任务、机器学习研究以及工程工作流程的关键参与者。
MiniMax M2.7 模型总参数数量高达 2300 亿,但通过推理时仅激活约 4.3% 的参数(每个 token 激活约 100 亿参数),从而在保持高效的同时实现能力最大化。这得益于智能路由机制,该机制为每个输入选择相关专家,从而减少计算开销而不牺牲性能。
主要功能与架构
该 MoE 设计结合了旋转位置嵌入 (RoPE) 和查询-键值平方根归一化 (QK RMSNorm) 等先进技术,从而支持大规模的稳定训练。其高达 200,000 个 token 的扩展输入上下文长度使其特别适合长文本推理和编码挑战。在优化的 top-k 路由系统支持下,每个 token 激活 256 个本地专家,模型在可扩展性和精确度之间实现了有效平衡。
值得一提的是,NVIDIA 已将 MiniMax M2.7 集成到其开源生态系统中,通过 vLLM 和 SGLang 等框架进一步优化推理性能。QK RMSNorm 内核允许计算任务与通信任务之间更好地重叠,而 FP8 MoE 模块化内核则在 NVIDIA Blackwell Ultra 等高性能 GPU 上提高了吞吐量。
性能提升指标
NVIDIA 报告称,一个月内通过 vLLM 优化,其吞吐量提高了高达 2.5 倍,而在类似条件下,SGLang 实现的吞吐量提升达到 2.7 倍。
部署选项
MiniMax M2.7 可通过多种平台部署,以满足不同的需求:
- NVIDIA Brev Cloud: 一键设置,为利用 GPU 加速环境的开发人员提供支持。
- NVIDIA NIM 微服务: 可在本地或云环境中部署的企业级容器化解决方案。
- NeMo 框架: 通过 Hugging Face 和强化学习库提供微调选项,以实现定制化应用。
重要意义
此发布进一步巩固了 NVIDIA 在高效扩展大型语言模型领域的领导地位,同时通过开放标准和与 Hugging Face 等流行框架的集成,推动了行业的民主化发展。对于从事实时自主代理或大规模推理任务的开发人员来说,MiniMax M2.7 提供了一种兼具性能与成本效益的强大解决方案。
用户可以通过 build.nvidia.com 今日起部署该模型,直接测试其功能或无缝集成到生产环境中。
Image source: Shutterstock