MiniMax M3 在 NVIDIA 上亮相:1百万令牌上下文,多模态 AI
realtime news Jun 12, 2026 15:23
拥有4280亿参数的 MiniMax M3 模型在 NVIDIA 基础设施上发布,为企业AI提供长上下文推理和多模态工作流。
MiniMax M3 是一款拥有4280亿参数的尖端人工智能模型,现在可在 NVIDIA 的加速基础设施(包括其 Blackwell GPU)上使用。这款由总部位于上海的 MiniMax 于2026年6月1日发布的模型,旨在通过将长上下文推理、多模态功能和任务优化结合到一个系统中,从而简化企业的 AI 工作流。
MiniMax M3 的显著特点是能够处理多达 100 万个令牌的上下文,这是对现有大多数模型的巨大升级。这使得能够进行长时间的编码会话、复杂的法律文件分析或长视频理解而不会中断上下文。此外,该模型支持原生多模态输入——文本、图像和视频——无需单独的流程管道,从而降低了开发者的复杂性。
架构进步:MiniMax 稀疏注意力
M3 性能的核心是全新的 MiniMax 稀疏注意力(MSA)架构。与传统的二次注意力机制不同,MSA 使用预筛选阶段,仅关注相关的上下文块,从而显著提高了速度和效率。据 MiniMax 称,这将 100 万令牌上下文的计算成本减少到了其前代模型 MiniMax M2 的 1/20。据报道,预填充速度提升了九倍,而解码速度相比旧的稀疏注意力实现提升了15倍。
该模型从一开始就对文本、图像和视频进行原生训练,无需后期多模态处理的调整,这在前沿模型领域是一个关键差异点。
企业部署与定制
MiniMax M3 可以使用 NVIDIA TensorRT LLM、SGLang 和 vLLM 等流行的开源推理引擎进行部署。NVIDIA 已将该模型集成到其 Dynamo 分布式推理平台中,通过在 GPU 上分离预填充和解码任务来提升长序列工作负载的性能。据报道,这种方法在 NVIDIA Blackwell 硬件上针对 32k 输入长度序列的交互性提升了 4 倍。
对于希望定制 M3 的用户,NVIDIA 的 NeMo 框架提供了强大的微调工具,包括对最长支持 128k 令牌序列长度的支持。开发者还可以对该模型进行强化学习,以优化其在特定应用中的表现,例如基于代理的工作流或文档解析。
竞争市场定位
MiniMax M3 正进入一个竞争激烈的 AI 模型市场,但它旨在通过其技术能力和开源权重方式来实现差异化。在编码基准测试中,MiniMax 声称在 SWE-Bench Pro 上取得了 59.0% 的得分,略微超越 GPT-5.5(58.6%)和 Gemini 3.1 Pro(54.2%)。尽管这些结果是公司报告的,但它们将 M3 定位为编码和多模态 AI 领域的领先竞争者。
值得注意的是,该模型在成本上显著低于许多闭源竞争对手,据报道,其启动价格为每百万输入令牌 0.60 美元。这种激进的定价策略针对部署大规模 AI 工作流的成本敏感型企业。
接下来是什么?
开发者可以立即通过 NVIDIA 的 GPU 加速 API 开始使用 MiniMax M3,或者从 Hugging Face 下载模型权重。由于其开源权重设计,该模型预计将在法律技术、自动化系统和多模态内容生成等领域获得广泛应用。
尽管 AI 界将密切关注以验证 MiniMax 关于效率和基准的声明,但该模型的技术创新和成本结构使其成为企业希望简化复杂工作流的一个令人信服的选择。
Image source: Shutterstock