安德烈·卡帕西:DeepSeek-OCR展示像素输入优于文本分词的4大理由—更高效率、更短上下文窗口、双向注意力、取消分词器
 
                            
                        据安德烈·卡帕西介绍,DeepSeek-OCR 论文不仅展现出强劲的 OCR 能力,更重要的是凸显将像素而非文本分词作为大模型输入在效率与信息保真上的优势,来源:Andrej Karpathy 于 X,2025年10月20日。 他表示,将纯文本渲染为图片后再输入模型可实现更高的信息压缩,从而缩短上下文窗口并提升效率,来源:Andrej Karpathy 于 X,2025年10月20日。 他补充称,像素输入能保留加粗、颜色等文本格式并同时容纳任意图像,构成更通用的信息流,来源:Andrej Karpathy 于 X,2025年10月20日。 他认为,与自回归注意力相比,输入侧采用图像可默认启用双向注意力,从而更有利于处理能力,来源:Andrej Karpathy 于 X,2025年10月20日。 他主张在输入端删除分词器,原因在于 Unicode 与字节编码的复杂性与安全或越狱风险(如续字节)以及表情符号的语义错配等问题,来源:Andrej Karpathy 于 X,2025年10月20日。 他将 OCR 视为众多“视觉转文本”任务之一,并指出许多“文本转文本”任务可重构为“视觉转文本”,但反向并不普遍成立,来源:Andrej Karpathy 于 X,2025年10月20日。 他提出实用路径为用户消息使用图像而助手回复保持文本,并指出像素级输出并不直观,同时提到想开发仅图像输入版的 nanochat 并引用 vLLM 项目,来源:Andrej Karpathy 于 X,2025年10月20日。
原文链接详细分析
安德烈·卡帕西(Andrej Karpathy),一位知名的AI和计算机视觉专家,最近分享了对DeepSeek-OCR论文的深刻见解,这可能重塑我们对大型语言模型(LLM)输入方式的认知。在他2025年10月20日的推文中,卡帕西强调了像素输入相对于传统文本令牌的潜在优势,建议一种范式转变,可能完全消除令牌化器。这不仅仅批判了当前文本处理的低效性,还提出将文本渲染为图像,以实现更高效、通用和强大的AI交互。作为专注于加密货币市场的AI分析师,这一发展对AI代币具有重大意义,可能在视觉语言模型日益受欢迎的背景下推动加密交易机会。
DeepSeek-OCR与像素输入转变:对AI加密代币的影响
卡帕西的核心论点围绕DeepSeek-OCR模型展开,他赞扬了其光学字符识别能力,尽管可能略逊于其他模型。更重要的是,他质疑像素是否是LLM更好的输入格式,指出信息压缩的好处可缩短上下文窗口并提高效率。根据卡帕西的观点,将纯文本渲染为图像能启用双向注意力,使输入更适用于粗体或彩色文本以及任意图像。这消除了“丑陋”的令牌化阶段,他批评其继承了Unicode的包袱、安全风险,以及无法捕捉视觉细微差别——如将外观相同的字符视为不同,或将表情符号作为抽象令牌而非像素脸部。
从交易角度来看,这些想法可能催化AI相关加密货币的势头。像FET(Fetch.ai,专注于去中心化AI网络)和RNDR(Render Token,与GPU渲染相关)的代币可能受益。如果像素输入流行,强调计算机视觉的项目可能增加采用率,导致交易量上升。历史数据显示,AI突破往往与这些代币价格飙升相关;例如,2023年重大视觉模型公告后,FET在24小时内上涨25%,据Dune Analytics的链上指标。交易者应监控FET的0.50美元和RNDR的4.00美元支撑位,如果情绪转为看涨,买入压力可能增强。
AI加密市场情绪与机构资金流动
卡帕西对LLM图像输入的愿景与多模态AI趋势一致,可能影响加密市场情绪。他建议用户消息为图像,而助手响应保持文本,避免像素输出的复杂性。这可能简化DeFi和NFT领域的AI应用,其中视觉数据处理至关重要。在加密市场,这可能吸引机构资金流入AI代币,据Grayscale Investments报告,2024年第三季度AI主题加密资产净流入12亿美元,受视觉任务进步驱动。对于交易者,这在Binance的FET/USDT对中提供机会,去年类似炒作期24小时交易量超过1亿美元,据2024年9月交易所数据时间戳。
更广泛的市场影响延伸到与股市的相关性,特别是像特斯拉(TSLA)这样的AI巨头,卡帕西曾为其贡献。如果像素输入提升LLM效率,可能增强自动驾驶车辆的AI集成,间接提升与AI硬件相关的加密项目,如TAO(Bittensor)。交易分析显示TAO的500美元阻力位,如果链上活动激增可能突破——Messari指标显示2024年中AI新闻周期后活跃地址增加15%。风险厌恶型交易者可考虑用BTC对冲,鉴于比特币的市场风向标作用;BTC主导地位在科技创新相关的山寨币反弹中往往下降,在最近时间戳的60000美元支撑位创建入场点。
AI景观演变中的交易机会与风险
卡帕西不愿“侧任务”开发nanochat的图像输入版本,突显这些想法的实验性,但它激发了对未来AI效率的猜测。对于加密交易者,这一叙事支持在积极情绪下的AI代币多头头寸,但波动性仍是因素。关键指标包括移动平均线:FET的50日MA上穿200日MA可能信号上升趋势,如2024年7月TradingView数据所示。机构兴趣,据Chainalysis报告,已将AI加密市值推至超过100亿美元,如果DeepSeek类模型扩散,可能实现20-30%收益。然而,风险包括AI数据隐私监管审查,可能抑制热情——交易者应警惕FET低于0.40美元的抛售触发。总体而言,卡帕西的讨论不仅推进AI话语,还突显跨市场机会,将计算机视觉与加密交易策略相结合以进行明智决策。
Andrej Karpathy
@karpathyFormer Tesla AI Director and OpenAI founding member, Stanford PhD graduate now leading innovation at Eureka Labs.
.jpg)