MiniMax M2.7 在 NVIDIA 平台上提升 AI 工作流程 [E2E]

MiniMax M2.7 在 NVIDIA 平台上提升 AI 工作流程 [E2E] - Blockchain.News

MiniMax M2.7 是 NVIDIA MiniMax 系列的最新型号，在复杂 AI 应用的可扩展智能化工作流程中带来了显著进步。该产品于 2026 年 4 月 12 日发布，基于 MiniMax M2.5 的基础进行了改进，采用增强的稀疏型专家混合（MoE）架构，使其成为推理任务、机器学习研究以及工程工作流程的关键参与者。

MiniMax M2.7 模型总参数数量高达 2300 亿，但通过推理时仅激活约 4.3% 的参数（每个 token 激活约 100 亿参数），从而在保持高效的同时实现能力最大化。这得益于智能路由机制，该机制为每个输入选择相关专家，从而减少计算开销而不牺牲性能。

主要功能与架构

该 MoE 设计结合了旋转位置嵌入 (RoPE) 和查询-键值平方根归一化 (QK RMSNorm) 等先进技术，从而支持大规模的稳定训练。其高达 200,000 个 token 的扩展输入上下文长度使其特别适合长文本推理和编码挑战。在优化的 top-k 路由系统支持下，每个 token 激活 256 个本地专家，模型在可扩展性和精确度之间实现了有效平衡。

值得一提的是，NVIDIA 已将 MiniMax M2.7 集成到其开源生态系统中，通过 vLLM 和 SGLang 等框架进一步优化推理性能。QK RMSNorm 内核允许计算任务与通信任务之间更好地重叠，而 FP8 MoE 模块化内核则在 NVIDIA Blackwell Ultra 等高性能 GPU 上提高了吞吐量。

性能提升指标

NVIDIA 报告称，一个月内通过 vLLM 优化，其吞吐量提高了高达 2.5 倍，而在类似条件下，SGLang 实现的吞吐量提升达到 2.7 倍。

vLLM 吞吐量 — *图：通过 vLLM 优化 MiniMax M2 系列的吞吐量改进*

部署选项

MiniMax M2.7 可通过多种平台部署，以满足不同的需求：

NVIDIA Brev Cloud： 一键设置，为利用 GPU 加速环境的开发人员提供支持。
NVIDIA NIM 微服务： 可在本地或云环境中部署的企业级容器化解决方案。
NeMo 框架： 通过 Hugging Face 和强化学习库提供微调选项，以实现定制化应用。

重要意义

此发布进一步巩固了 NVIDIA 在高效扩展大型语言模型领域的领导地位，同时通过开放标准和与 Hugging Face 等流行框架的集成，推动了行业的民主化发展。对于从事实时自主代理或大规模推理任务的开发人员来说，MiniMax M2.7 提供了一种兼具性能与成本效益的强大解决方案。

用户可以通过 build.nvidia.com 今日起部署该模型，直接测试其功能或无缝集成到生产环境中。

Image source: Shutterstock

MiniMax M2.7 在 NVIDIA 平台上提升 AI 工作流程 [E2E]

主要功能与架构

性能提升指标

部署选项

重要意义

Premium Sponsors

Flash News