AI 快讯列表关于 V3.2
| 时间 | 详情 |
|---|---|
| 08:07 |
稀疏注意力将128K上下文成本降至60%以下:扩展大模型上下文长度的实用技术指南
根据X平台用户@_avichawla 的帖子,采用稀疏注意力后,128K上下文下的预填充成本约从$0.65降至$0.35每百万token,解码成本约从$2.4降至$0.8,并且V3.2在部分长上下文基准上表现不降反升。该帖指出,关键在于在不牺牲质量的前提下实现稀疏注意力,这为更大上下文窗口与更低推理成本同时成立提供了路径。结合业界公开研究报道,扩展上下文的常见方法还包括:RoPE或YaRN等位置编码缩放以稳定超长序列、Performer与Hyena等线性注意力以降低二次复杂度、RAG检索增强将长背景外置存储、分块加跨块注意力的层级条件建模、滑动窗口与状态压缩保持语境连续、以及推理时的attention sink与KV缓存淘汰策略控制显存增长。对于企业,这些方案可显著降低长文档问答、合同审阅、代码理解与多模态转录的服务成本并提升产能,来源均基于上述帖文与公开研究综述。 |
| 08:07 |
DeepSeek V3.2 稀疏注意力DSA重磅突破:O(Lk)复杂度将128K长上下文计算大幅降本
据推特用户 @_avichawla 报道,DeepSeek 在 V3.2 中推出 DeepSeek Sparse Attention(DSA),将注意力计算从 O(L²) 降为 O(Lk),每次查询仅选取前 k 个键值对,且无论上下文是否为 128K,最多只保留 2048 个令牌。根据该来源,轻量级 Lightning Indexer 采用少量 FP8 头对令牌重要性打分,先进行廉价筛选,再在被选子集上执行昂贵注意力,从而集中算力并降低延迟与成本。该来源还指出,固定的 k 使显存与计算更可预测,有利于长文档问答、检索增强生成和企业级长上下文推理的吞吐与服务经济性。 |