阿里巴巴发布Qwen3-Next-80B-A3B：支持超长上下文推理的80B参数AI模型

据DeepLearning.AI报道，阿里巴巴推出Qwen3-Next-80B-A3B大模型，具备80亿参数，分为Base、Instruct和Thinking三种变体，并以Apache 2.0开源协议发布。该模型采用混合专家（mixture-of-experts）结构，用门控DeltaNet和门控注意力机制取代传统注意力层，大幅提升长上下文推理速度。模型基于Qwen3数据集的15万亿标记子集训练，并通过GSPO微调，支持多标记预测和最长262,144个token输入，极大增强了企业级生成式AI、文档分析与大规模对话应用的实用性。（来源：DeepLearning.AI Twitter，2025-09-22）

原文链接

详细分析

阿里巴巴于2025年9月22日发布了Qwen3-Next-80B-A3B模型，包括Base、Instruct和Thinking变体，采用开源Apache 2.0许可，专注于加速长上下文推理。该80亿参数的混合专家设计将大多数普通注意力层替换为Gated DeltaNet层，其余为门控注意力。模型在Qwen3数据集的15万亿令牌子集上训练，并使用GSPO进行微调，支持多令牌预测和高达262,144令牌的输入（可通过修改扩展）。根据DeepLearning.AI的2025年9月22日公告，此发展标志着AI技术在处理扩展上下文方面的重大进步，如文档摘要和复杂对话代理。在行业背景下，这与开源AI竞争加剧相符，推动医疗诊断和金融预测等领域的应用。业务影响包括为企业提供无高额许可费的先进AI集成机会，全球AI市场预计2025年达3900亿美元（Statista数据），自然语言处理增长率超过25%。企业可利用这些模型优化电子商务和客户服务，潜在降低运营成本30-50%。竞争格局中，阿里巴巴加强亚洲市场地位，与Hugging Face等玩家竞争。监管考虑涉及欧盟AI法案的透明要求（2024年起），伦理实践强调数据集多样性以减少偏见。技术细节包括Gated DeltaNet提升效率，支持多令牌生成，减少推理时间。实施挑战需强大计算资源，可通过量化优化解决。未来展望，到2026年，长上下文模型可能标准化，窗口超100万令牌。总体而言，此发布促进可访问AI创新，预计到2030年AI经济影响达15.7万亿美元（PwC 2023分析）。

常见问题：Qwen3-Next-80B-A3B的关键特性是什么？模型采用80亿参数MoE设计，支持快速长上下文推理、多令牌预测和262,144令牌输入，如2025年9月22日公告所述。企业如何从中受益？可用于客户服务和数据分析的成本有效集成，利用开源许可进行定制和货币化。训练数据规模是多少？在Qwen3数据集的15万亿令牌子集上训练，并用GSPO微调。

企业级AI 多token预测开源AI模型混合专家大模型生成式AI 超长上下文推理阿里巴巴Qwen3-Next-80B-A3B

DeepLearning.AI

@DeepLearningAI

We are an education technology company with the mission to grow and connect the global AI community.

阿里巴巴发布Qwen3-Next-80B-A3B：支持超长上下文推理的80B参数AI模型

详细分析

DeepLearning.AI

Premium 赞助商

热门话题