长文本处理 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 长文本处理

时间 详情
2025-09-29
10:10
DeepSeek-V3.2-Exp发布:稀疏注意力技术提升AI训练速度,API降价50%

据DeepSeek (@deepseek_ai) 官方消息,DeepSeek-V3.2-Exp实验性模型正式发布,基于V3.1-Terminus架构,首次引入DeepSeek稀疏注意力(DSA)技术,大幅提升长文本任务的训练与推理效率。目前该模型已在App、Web和API平台上线,API价格下降超过50%。此次升级为企业用户带来更高效、低成本的AI文本处理和分析解决方案,推动自然语言处理领域的商业化应用(来源:DeepSeek官方推特)。

2025-09-17
03:00
谷歌ATLAS语言模型突破:可处理千万级Token,创新可训练记忆模块引领AI长文本应用

据DeepLearning.AI报道,谷歌研究人员推出了ATLAS语言模型架构,用可训练记忆模块取代传统注意力机制,实现了对高达千万级Token的输入处理能力(来源:DeepLearning.AI)。该模型在FineWeb数据集上训练,推理阶段仅更新记忆模块,大幅提升了推理效率。ATLAS在BABILong长上下文基准测试中获得80%高分,在八个问答基准上平均得分57.62%,超越Titans和Transformer++等主流模型(来源:DeepLearning.AI)。这一创新为法律文档分析、企业级检索和大规模数据摘要等AI长文本应用带来全新商业机遇。

2025-08-21
06:33
DeepSeek AI发布V3.1大模型:8400亿Token预训练,长文本处理能力大幅提升

据DeepSeek官方推特(@deepseek_ai)消息,DeepSeek AI正式发布V3.1 Base大模型,继续在8400亿token基础上进行预训练,显著增强了长文本上下文处理能力。本次升级还包括全新分词器和聊天模板的优化,全面提升了对话模型的实际应用表现。V3.1 Base与完整版模型权重已全面开源,为开发者和企业带来更高效的大语言模型部署选择,推动中文AI对话系统和自然语言处理行业的发展(来源:DeepSeek推特,2025年8月21日)。