阿里巴巴发布Qwen3-Next-80B-A3B:支持超长上下文推理的80B参数AI模型 | AI快讯详情 | Blockchain.News
最新更新
9/22/2025 10:32:00 PM

阿里巴巴发布Qwen3-Next-80B-A3B:支持超长上下文推理的80B参数AI模型

阿里巴巴发布Qwen3-Next-80B-A3B:支持超长上下文推理的80B参数AI模型

据DeepLearning.AI报道,阿里巴巴推出Qwen3-Next-80B-A3B大模型,具备80亿参数,分为Base、Instruct和Thinking三种变体,并以Apache 2.0开源协议发布。该模型采用混合专家(mixture-of-experts)结构,用门控DeltaNet和门控注意力机制取代传统注意力层,大幅提升长上下文推理速度。模型基于Qwen3数据集的15万亿标记子集训练,并通过GSPO微调,支持多标记预测和最长262,144个token输入,极大增强了企业级生成式AI、文档分析与大规模对话应用的实用性。(来源:DeepLearning.AI Twitter,2025-09-22)

原文链接

详细分析

阿里巴巴于2025年9月22日发布了Qwen3-Next-80B-A3B模型,包括Base、Instruct和Thinking变体,采用开源Apache 2.0许可,专注于加速长上下文推理。该80亿参数的混合专家设计将大多数普通注意力层替换为Gated DeltaNet层,其余为门控注意力。模型在Qwen3数据集的15万亿令牌子集上训练,并使用GSPO进行微调,支持多令牌预测和高达262,144令牌的输入(可通过修改扩展)。根据DeepLearning.AI的2025年9月22日公告,此发展标志着AI技术在处理扩展上下文方面的重大进步,如文档摘要和复杂对话代理。在行业背景下,这与开源AI竞争加剧相符,推动医疗诊断和金融预测等领域的应用。业务影响包括为企业提供无高额许可费的先进AI集成机会,全球AI市场预计2025年达3900亿美元(Statista数据),自然语言处理增长率超过25%。企业可利用这些模型优化电子商务和客户服务,潜在降低运营成本30-50%。竞争格局中,阿里巴巴加强亚洲市场地位,与Hugging Face等玩家竞争。监管考虑涉及欧盟AI法案的透明要求(2024年起),伦理实践强调数据集多样性以减少偏见。技术细节包括Gated DeltaNet提升效率,支持多令牌生成,减少推理时间。实施挑战需强大计算资源,可通过量化优化解决。未来展望,到2026年,长上下文模型可能标准化,窗口超100万令牌。总体而言,此发布促进可访问AI创新,预计到2030年AI经济影响达15.7万亿美元(PwC 2023分析)。

常见问题:Qwen3-Next-80B-A3B的关键特性是什么?模型采用80亿参数MoE设计,支持快速长上下文推理、多令牌预测和262,144令牌输入,如2025年9月22日公告所述。企业如何从中受益?可用于客户服务和数据分析的成本有效集成,利用开源许可进行定制和货币化。训练数据规模是多少?在Qwen3数据集的15万亿令牌子集上训练,并用GSPO微调。

DeepLearning.AI

@DeepLearningAI

We are an education technology company with the mission to grow and connect the global AI community.