MiniMax-M3 推出具有稀疏注意力的 1M-Token 模型

predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info

Inquire

MiniMax 发布了其最新的 AI 模型 M3，该模型具有突破性的 100 万 token 上下文窗口和原生多模态功能。作为 MiniMax 的首选云合作伙伴，Together AI 对该模型进行了优化，以支持大规模部署，并引入了性能改进，从而降低了成本并减少了延迟。该模型将在未来几天内以开放权重的形式发布，开发者可以通过 Together AI 的端点直接访问。

M3 模型通过 MiniMax 稀疏注意力（MSA）等功能突破了大语言模型（LLM）的极限。这是一种全新的架构，旨在解决长上下文处理的瓶颈。这项创新使预填充阶段的速度提高了 9 倍，解码阶段的性能提升了 15 倍，使其在同类模型中脱颖而出。MiniMax-M3 专为高效的真实世界应用而设计，从处理大规模文档和代码库到处理包括图像和视频在内的多模态任务。

MiniMax-M3 的独特之处是什么？

M3 模型集成了 MSA，限制了每个查询的 token 关注数量，将长上下文推理的计算复杂度从二次方（N²）降低到线性。这比其前代产品 MiniMax M2.7 是一个巨大的飞跃。此外，该模型还增强了多模态功能，实现了视觉与文本数据的无缝集成。

然而，支持 100 万 token 上下文也带来了独特的挑战。Together AI 通过多项优化应对了这些挑战，例如重新设计内核以减少内存开销，并将稀疏注意力与分页注意力相结合以更高效地管理 KV 缓存。结果是：一个可扩展的解决方案，在典型工作负载下提供了超过 80% 的吞吐量提升。

上下文中的性能

M3 的发布与 AI 推理优化的更广泛趋势相一致。像 NVIDIA 的 Guess-Verify-Refine 算法（2026 年 5 月）和 Sakana AI 的 TwELL 稀疏内核（2026 年 5 月）这样的创新已经证明，稀疏注意力可以显著加速大型模型的推理。类似 M3 使用的 KV-block-major 架构被越来越多地认为是高效扩展长上下文模型的关键。

例如，谷歌的 TurboQuant（2026 年 3 月）将 KV 缓存压缩到 3 位，实现了多达 8 倍的计算速度提升。同样，NVIDIA 的 Blackwell GPU 现在也针对稀疏注意力工作负载进行了优化，在解码中提供了近 2 倍的性能提升。这些进步帮助像 MiniMax-M3 这样的模型在满足高上下文 AI 应用的需求的同时，不牺牲准确性。

为什么这很重要？

随着企业对能够处理复杂、高上下文任务的 AI 解决方案的需求不断增长，长上下文模型正变得越来越重要。从总结法律文件到处理自主系统的多模态数据，能够高效管理扩展上下文窗口已成为竞争的关键区分点。

MiniMax-M3 结合了稀疏注意力、多模态功能和高效推理，使其在该领域处于领先地位。对于开发者来说，通过 Together AI 提供的开放权重可以降低进入门槛，而企业用户则可以从降低的计算成本和改进的性能中受益。

展望未来

MiniMax-M3 的开放权重预计将在未来几天内发布，这标志着 AI 社区的重要里程碑。Together AI 的基础设施优化将在支持该模型的广泛采用中发挥关键作用，尤其是对于需要高并发和长上下文工作负载的应用。

随着 AI 领域的发展，焦点正从单纯扩大模型规模转向优化推理效率。MiniMax-M3 体现了这一范式转变，为长上下文和多模态 AI 设立了新的基准。

Image source: Shutterstock

Bookmark

MiniMax-M3 推出具有稀疏注意力的 1M-Token 模型

MiniMax-M3 的独特之处是什么？

上下文中的性能

为什么这很重要？

展望未来

Premium Sponsors

Flash News