AI 快讯列表关于 多token预测
| 时间 | 详情 | 
|---|---|
| 
                                        2025-09-22 22:32  | 
                            
                                 
                                    
                                        阿里巴巴发布Qwen3-Next-80B-A3B:支持超长上下文推理的80B参数AI模型
                                    
                                     
                            据DeepLearning.AI报道,阿里巴巴推出Qwen3-Next-80B-A3B大模型,具备80亿参数,分为Base、Instruct和Thinking三种变体,并以Apache 2.0开源协议发布。该模型采用混合专家(mixture-of-experts)结构,用门控DeltaNet和门控注意力机制取代传统注意力层,大幅提升长上下文推理速度。模型基于Qwen3数据集的15万亿标记子集训练,并通过GSPO微调,支持多标记预测和最长262,144个token输入,极大增强了企业级生成式AI、文档分析与大规模对话应用的实用性。(来源:DeepLearning.AI Twitter,2025-09-22)  |