关于 长上下文推理 的快讯列表
时间 | 详情 |
---|---|
2025-09-29 10:10 |
DeepSeek-V3.2-Exp 发布:引入DSA长上下文效率,API降价50%+,现已上线 App/Web/API
根据 @deepseek_ai,DeepSeek 发布了实验性模型 DeepSeek-V3.2-Exp,基于 V3.1-Terminus。来源:@deepseek_ai 于 X,2025年9月29日,https://twitter.com/deepseek_ai/status/1972604768309871061。该版本首发 DeepSeek Sparse Attention(DSA),用于更快、更高效的长上下文训练与推理。来源:@deepseek_ai 于 X,2025年9月29日,https://twitter.com/deepseek_ai/status/1972604768309871061。该模型现已在 App、Web 与 API 上线。来源:@deepseek_ai 于 X,2025年9月29日,https://twitter.com/deepseek_ai/status/1972604768309871061。API 价格同步下调超50%;对交易者而言,本次公告给出的可量化催化包括全渠道上线与50%+降价。来源:@deepseek_ai 于 X,2025年9月29日,https://twitter.com/deepseek_ai/status/1972604768309871061。 |
2025-09-22 22:32 |
阿里巴巴发布 Qwen3-Next-80B-A3B 开源权重大模型(Apache 2.0):262k 长上下文、MoE、Gated DeltaNet、支持多Token预测
据 @DeepLearningAI 报道,阿里巴巴发布 Qwen3-Next-80B-A3B,提供 Base、Instruct、Thinking 三个版本,采用 Apache 2.0 开源权重许可,面向更快的长上下文推理,并支持最长 262,144 Token 输入与多Token预测;来源:DeepLearning.AI 在 X,2025-09-22,https://twitter.com/DeepLearningAI/status/1970254860416131146;The Batch 综述,https://hubs.la/Q03KsR8W0。该模型为 800 亿参数的混合专家架构,多数标准注意力层替换为 Gated DeltaNet,其余采用 gated attention,基于 Qwen3 数据集的 15 万亿 Token 子集训练,并使用 GSPO 进行微调;来源:DeepLearning.AI 在 X,2025-09-22,https://twitter.com/DeepLearningAI/status/1970254860416131146;The Batch 综述,https://hubs.la/Q03KsR8W0。交易角度看,核心可量化指标包括 262,144 Token 上下文窗口、多Token预测与 Apache 2.0 开源权重许可,这些参数决定了模型的可用性与性能边界;来源未提及任何加密货币集成或价格影响;来源:DeepLearning.AI 在 X,2025-09-22,https://twitter.com/DeepLearningAI/status/1970254860416131146;The Batch 综述,https://hubs.la/Q03KsR8W0。 |
2025-08-08 09:17 |
@gdb发布GPT-5长上下文推理信息:AI概念股与加密市场的关键交易观察
据@gdb发布的信息,他在8月8日于X上发文称 gpt-5 for long context reasoning 并附上外部链接,指向与GPT-5及长上下文推理相关的内容来源(来源:@gdb 于X,2025年8月8日)。该帖未提供任何发布时间、技术规格、定价或可用性等更多细节,仅有文字与链接(来源:@gdb 于X,2025年8月8日)。在交易层面,目前唯一经证实的催化是该帖及链接本身,参与者可关注@gdb的后续发文及链接页面的官方更新,再考虑布局AI相关股票或加密叙事标的(来源:@gdb 于X,2025年8月8日)。鉴于该帖缺乏可执行的产品细节,建议将潜在仓位视为事件驱动并等待同一来源的确认公告(来源:@gdb 于X,2025年8月8日)。 |