关于 上下文窗口 的快讯列表
| 时间 | 详情 | 
|---|---|
| 2025-10-20 22:13 | 
                                        
                                            安德烈·卡帕西:DeepSeek-OCR展示像素输入优于文本分词的4大理由—更高效率、更短上下文窗口、双向注意力、取消分词器
                                        
                                         据安德烈·卡帕西介绍,DeepSeek-OCR 论文不仅展现出强劲的 OCR 能力,更重要的是凸显将像素而非文本分词作为大模型输入在效率与信息保真上的优势,来源:Andrej Karpathy 于 X,2025年10月20日。 他表示,将纯文本渲染为图片后再输入模型可实现更高的信息压缩,从而缩短上下文窗口并提升效率,来源:Andrej Karpathy 于 X,2025年10月20日。 他补充称,像素输入能保留加粗、颜色等文本格式并同时容纳任意图像,构成更通用的信息流,来源:Andrej Karpathy 于 X,2025年10月20日。 他认为,与自回归注意力相比,输入侧采用图像可默认启用双向注意力,从而更有利于处理能力,来源:Andrej Karpathy 于 X,2025年10月20日。 他主张在输入端删除分词器,原因在于 Unicode 与字节编码的复杂性与安全或越狱风险(如续字节)以及表情符号的语义错配等问题,来源:Andrej Karpathy 于 X,2025年10月20日。 他将 OCR 视为众多“视觉转文本”任务之一,并指出许多“文本转文本”任务可重构为“视觉转文本”,但反向并不普遍成立,来源:Andrej Karpathy 于 X,2025年10月20日。 他提出实用路径为用户消息使用图像而助手回复保持文本,并指出像素级输出并不直观,同时提到想开发仅图像输入版的 nanochat 并引用 vLLM 项目,来源:Andrej Karpathy 于 X,2025年10月20日。 | 
| 2025-02-25 11:32 | 
                                        
                                            Google DeepMind全球推出免费版Gemini代码助手
                                        
                                         根据Google DeepMind的消息,公司全球推出免费版Gemini代码助手,旨在提高编程效率。该工具每月提供18万次代码补全功能,并支持所有公共领域的编程语言,使其成为开发人员的多功能资产。此外,它具有128K的令牌上下文窗口,允许更广泛的上下文分析。此发布可能会影响编码生产力,并可能影响与技术相关的股票走势。[来源:Google DeepMind Twitter] | 
| 2025-02-05 16:12 | 
                                        
                                            Google DeepMind的2.0 Pro Experimental通过扩展上下文窗口增强编码
                                        
                                         根据Google DeepMind,新的2.0 Pro Experimental模型通过使用庞大的200万标记上下文窗口显著提高了编码和复杂提示处理能力,使其能够高效地分析大数据集。这一进步有望通过提供增强的数据处理能力和精细的世界知识理解来影响算法交易策略。交易员可以利用该模型优化决策过程并提升交易表现。(来源:GoogleDeepMind推文) |