快讯列表

关于 Karpathy 的快讯列表

时间 详情
2025-10-26
16:24
@karpathy 披露 PyTorch MPS addcmul_ 在非连续张量上的静默失败:AI 训练可靠性风险与交易关注点

根据 @karpathy 的信息,一篇技术调试长文将可疑的训练损失曲线追溯到 PyTorch MPS 后端中 addcmul_ 在 Objective-C++ 路径对非连续输出张量出现静默失败的问题,属于不抛出错误的正确性 Bug;来源:@karpathy 的 X 动态 https://twitter.com/karpathy/status/1982483540899237981 以及其引用的 @ElanaPearl 线程 https://x.com/ElanaPearl/status/1981389648695025849。 对 AI 工作流可靠性而言,这意味着基于苹果 MPS 的 Mac 端训练可能在无显式报错的情况下产生错误结果,直接影响从业者的模型训练和评估流程完整性;来源:@karpathy 的 X 动态 https://twitter.com/karpathy/status/1982483540899237981 与 @ElanaPearl 的 X 线程 https://x.com/ElanaPearl/status/1981389648695025849。 对交易者而言,应将其视为 AI 工具链的软件可靠性风险信号,并关注官方 PyTorch 或苹果 MPS 的更新与发布说明中对 addcmul_ 或非连续张量处理的修复描述,因为明确修复有助于降低 AI 负载的操作不确定性并影响市场情绪;来源:@karpathy 的 X 动态 https://twitter.com/karpathy/status/1982483540899237981 与 @ElanaPearl 的 X 线程 https://x.com/ElanaPearl/status/1981389648695025849。

来源
2025-10-24
15:35
Karpathy发布 SpellingBee 教程:用 SFT 与 RL 为 nanochat d32 增强字母计数能力,或引发 AI 代币关注

据 @karpathy 介绍,他发布了完整教程,通过合成任务 SpellingBee 生成用户与助手示例,对 nanochat d32 进行中期训练与监督微调,并可选用强化学习提升鲁棒性,从而学会统计单词中某字母的次数,例如 strawberry 中的 r,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。方法要点包括:多样化用户提问、严格处理分词与空白、将推理拆分为多 token 步骤(标准化引号、拼写拆分、显式计数迭代),并同时鼓励手动推理与 Python 工具两条解题路径,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。Karpathy 指出,由于 nanochat d32 体量小,需要在数据集中过采样该能力以促成学习,并可通过模拟错误样例或强化学习进一步增强稳定性,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。对交易者而言,开源小模型训练方法的进展曾与 AI 概念关注度提升相伴,AI 代币如 RNDR、FET、AGIX 在英伟达等重大 AI 催化附近有过阶段性联动表现,Kaiko 在 2024 年报告过 AI 代币在英伟达财报期间的上涨,来源:Kaiko Research 2024 周报;英伟达 2024 年财报资料。本文并非代币或产品发布,而是面向小模型能力注入的技术指南与数据示例,来源:Karpathy 于 2025-10-24 的 X 帖子;GitHub nanochat 讨论 164。

来源
2025-10-21
15:59
Andrej Karpathy发布nanochat d32:$800合成数据定制LLM身份与脚本开源,AI智能体赛道交易关键信号

据@karpathy称,nanochat现已具备明确身份并可说明自身能力,包括其为由他构建的nanochat d32、成本约$800且在非英语方面较弱,这些均通过合成数据定制实现,来源: x.com/karpathy/status/1980508380860150038。 他发布了一个示例脚本,展示如何生成多样化合成对话并在中期训练或SFT阶段混入,强调保持数据熵以避免重复性,来源: x.com/karpathy/status/1980508380860150038。 他指出基础LLM本无固有个性或自我认知,需通过精心策划的合成数据显式“加装”,来源: x.com/karpathy/status/1980508380860150038。 对交易者而言,$800的定制成本基准与开源流程,为评估开源AI智能体开发与AI相关代币和AI概念股的采用路径提供具体参照,来源: twitter.com/karpathy/status/1980665134415802554。

来源
2025-10-20
22:13
安德烈·卡帕西:DeepSeek-OCR展示像素输入优于文本分词的4大理由—更高效率、更短上下文窗口、双向注意力、取消分词器

据安德烈·卡帕西介绍,DeepSeek-OCR 论文不仅展现出强劲的 OCR 能力,更重要的是凸显将像素而非文本分词作为大模型输入在效率与信息保真上的优势,来源:Andrej Karpathy 于 X,2025年10月20日。 他表示,将纯文本渲染为图片后再输入模型可实现更高的信息压缩,从而缩短上下文窗口并提升效率,来源:Andrej Karpathy 于 X,2025年10月20日。 他补充称,像素输入能保留加粗、颜色等文本格式并同时容纳任意图像,构成更通用的信息流,来源:Andrej Karpathy 于 X,2025年10月20日。 他认为,与自回归注意力相比,输入侧采用图像可默认启用双向注意力,从而更有利于处理能力,来源:Andrej Karpathy 于 X,2025年10月20日。 他主张在输入端删除分词器,原因在于 Unicode 与字节编码的复杂性与安全或越狱风险(如续字节)以及表情符号的语义错配等问题,来源:Andrej Karpathy 于 X,2025年10月20日。 他将 OCR 视为众多“视觉转文本”任务之一,并指出许多“文本转文本”任务可重构为“视觉转文本”,但反向并不普遍成立,来源:Andrej Karpathy 于 X,2025年10月20日。 他提出实用路径为用户消息使用图像而助手回复保持文本,并指出像素级输出并不直观,同时提到想开发仅图像输入版的 nanochat 并引用 vLLM 项目,来源:Andrej Karpathy 于 X,2025年10月20日。

来源
2025-10-20
18:58
Karpathy 解析 LLM 文本扩散(2025):双向注意力相较自回归显著提高训练成本

据 @karpathy 表示,文本扩散可以用带双向注意力的普通 Transformer 实现,通过按噪声日程反复重掩码并重新采样所有 token。来源:@karpathy。 他称,扩散是图像与视频生成的主流范式,而文本以自回归为主,音频两种方式并存。来源:@karpathy。 他补充,去除繁复形式化后可得到简单基线算法,离散扩散在连续情形上更接近流匹配。来源:@karpathy。 他解释,自回归是仅向后注意并追加 token,而扩散是在双向注意下刷新整块 token 画布。来源:@karpathy。 他指出,双向注意力能带来更强的语言模型,但因无法在序列维并行,使训练成本更高。来源:@karpathy。 他还提出,LLM 堆栈中可能进一步在两种范式之间进行插值或泛化。来源:@karpathy。 对交易者而言,关键在于双向文本扩散相对自回归的训练成本权衡,这直接影响对训练效率的评估。来源:@karpathy。

来源
2025-10-18
20:23
Karpathy提出“代理人十年”:10年AGI时间表、质疑RL与安全优先的LLM工具,对加密市场的关键指引

据@karpathy称,AGI大约还有10年,他称之为代理人十年,并指出仍需大量集成、现实世界传感器与执行器、社会对齐以及安全工作,其时间预期比当下舆论保守5-10倍,来源:@karpathy,X,2025年10月18日。其看多代理式交互、看空强化学习,原因是RL信号与算力效率低且噪声大,同时强调系统提示学习等替代范式,并将ChatGPT的记忆等视为早期已部署的实例,来源:@karpathy,X,2025年10月18日。其主张协作型、可验证的LLM工具,而非完全自治的代码代理,并警示能力过度宣传会堆积劣质代码并增加安全漏洞与风险,来源:@karpathy,X,2025年10月18日。其倡导通过弱化记忆来强化泛化的认知核心,并预计模型先变大再变小,来源:@karpathy,X,2025年10月18日。其还对比LLM更像通过下一词预测预封装知识的幽灵,而动物由进化预装智能,并建议逐步让模型更像动物,来源:@karpathy,X,2025年10月18日。对加密构建者与交易员而言,这指向在人类在环的代理流程、代码验证、记忆增强工具与安全优先集成方面进行布局,而非追逐完全自治AGI叙事,尤其在链上系统对软件缺陷与安全漏洞高度敏感的场景,来源:@karpathy,X,2025年10月18日。

来源
2025-10-16
00:14
卡帕西发布 $1000 nanochat d32:33 小时完成训练、CORE 0.31、GSM8K 20%,关注 RNDR、AKT、TAO

据 @karpathy 表示,depth-32 的 nanochat d32 以约 $1000 成本、约 33 小时完成训练,并在预训练、SFT 与 RL 各阶段均有指标提升(来源:Karpathy 在 X;Karpathy GitHub nanochat 讨论)。其称该模型 CORE 得分为 0.31,高于 GPT-2 的约 0.26,且 GSM8K 从约 8% 提升至约 20%,对微型模型而言是显著进步(来源:Karpathy 在 X;Karpathy GitHub nanochat 讨论)。他提醒 nanochat 的训练成本为 $100–$1000,且 $100 版本参数量约为 GPT-3 的 1/1000,因而更易出现幻觉与不稳定表现,用户预期需保持克制(来源:Karpathy 在 X)。他还表示已在仓库提供 run1000 sh 等脚本,当前短期托管供测试,后续将优化训练吞吐并可能继续向更大模型扩展(来源:Karpathy 在 X;Karpathy GitHub 仓库)。对于交易者而言,提供 AI 工作负载的去中心化 GPU 网络如 Render(RNDR)、Akash(AKT)与 Bittensor(TAO)是值得关注的标的,因低成本开源训练有利于开发者试验与算力需求叙事(来源:Render Network 文档;Akash Network 文档;Bittensor 文档)。

来源
2025-10-13
15:16
Karpathy发布nanochat:用8x H100约4小时、约100美元训练ChatGPT式LLM,为交易者提供清晰GPU成本基准

据@karpathy表示,nanochat是一个从零构建的极简全栈管线,可通过一条脚本在云端GPU上训练并部署简单的ChatGPT式LLM,并在约4小时内通过网页端与模型对话,实现端到端训练与推理流程。来源:@karpathy。 他称该代码库约8,000行,涵盖Rust实现的分词器训练、在FineWeb上的预训练及CORE评估、基于SmolTalk与多选数据的中期训练与工具使用、SFT、基于GRPO在GSM8K上的可选强化学习,以及带KV缓存的推理引擎、Python工具、CLI与类ChatGPT网页端,并生成自动化报告卡。来源:@karpathy。 披露的成本与时长基准为:8卡H100约4小时成本约100美元、约41.6小时成本约1000美元;一个24小时、depth-30的示例可在MMLU取得40分段、ARC-Easy 70分段、GSM8K 20分段。来源:@karpathy。 据此推算,隐含的算力价格约为每H100小时约3.1美元(约100美元对应32个H100小时),较长训练下约为每H100小时约3.0美元(约1000美元对应332.8个H100小时),为交易者提供AI训练支出建模所需的GPU小时成本基准。来源:@karpathy。 他还表示约12小时即可在CORE指标上超过GPT-2,且随训练规模提升能力增强,将nanochat定位为透明的强基线方案、LLM101n的压轴项目并具备研究基座潜力。来源:@karpathy。 对于关注AI基础设施的加密市场参与者,这些成本与性能披露为评估面向开源LLM训练的中心化与去中心化GPU算力需求提供锚点。来源:@karpathy。

来源
2025-10-09
00:10
安德烈·卡帕西批评RLHF:LLM畏惧异常,呼吁在RL训练中重设奖励机制

根据安德烈·卡帕西在2025年10月9日于Twitter发布的信息,他指出当前强化学习实践让LLM对异常产生过度恐惧,并强调异常是健康开发流程的正常组成部分。卡帕西号召签署其“LLM福利请愿”,以在出现异常时给予更合理的奖励设计。该帖未提及任何加密资产、代币或市场数据,来源未提供直接的市场更新。

来源
2025-10-03
13:37
Karpathy称:尽管投票显示约50%“主要用代理”,LLM代理编码尚未准备好承担一半专业工作

据安德烈·卡尔帕西(Andrej Karpathy)称,他在X上引用的投票显示,约有一半受访者表示他们主要使用代理模式编码,这与他预期的50%自动补全、30%手写、20%代理不一致,来源:Andrej Karpathy 于 X,2025年10月3日,https://x.com/karpathy/status/1974106507034964111;投票链接 https://x.com/karpathy/status/1973892769359056997。他表示自己的主要工作流是自动补全,并在无益时关闭,代理主要用于样板代码或不熟悉的技术栈,并进行大量审阅和修改,来源:Andrej Karpathy 于 X,2025年10月3日,https://x.com/karpathy/status/1974106507034964111。他警示当任务深度复杂或偏离数据流形时,LLM会生成臃肿且易出隐蔽错误的代码,因此代理模式尚未准备好撰写约一半的专业代码,来源:Andrej Karpathy 于 X,2025年10月3日,https://x.com/karpathy/status/1974106507034964111。他呼吁由严肃机构重跑该投票,强调实际采纳率仍存在不确定性,来源:Andrej Karpathy 于 X,2025年10月3日,https://x.com/karpathy/status/1974106507034964111。他的发言未提及加密货币或区块链,来源:Andrej Karpathy 于 X,2025年10月3日,https://x.com/karpathy/status/1974106507034964111。

来源
2025-10-01
19:22
Andrej Karpathy:Tinker 将 LLM 后训练复杂度降至 10% 以下,保留 90% 算法控制以加速微调

据 @karpathy 称,Tinker 让研究者和开发者在数据、损失函数与训练算法上保留约 90% 的算法创造性控制,同时将基础设施、正反向计算与分布式训练交由框架处理。来源:@karpathy 于 X,2025年10月1日,https://twitter.com/karpathy/status/1973468610917179630 据 @karpathy 称,Tinker 可将 LLM 后训练的典型复杂度降至 10% 以下,相较“上传数据、代为训练 LLM”的常见方案更低摩擦。来源:@karpathy 于 X,2025年10月1日,https://twitter.com/karpathy/status/1973468610917179630 据 @karpathy 称,这种对后训练流程的“切分”既能委托重体力工作,又能保留对数据与算法的主要控制权,是更有效的实践折中。来源:@karpathy 于 X,2025年10月1日,https://twitter.com/karpathy/status/1973468610917179630 据 @karpathy 称,微调并非主要用于“风格化”,而是聚焦任务范围收窄;当拥有大量训练样本时,针对窄任务微调的小模型在效果与速度上可优于对大模型的大量少样本提示。来源:@karpathy 于 X,2025年10月1日,https://twitter.com/karpathy/status/1973468610917179630 据 @karpathy 称,生产级 LLM 应用日益呈现 DAG 流水线协作形态,部分环节适合提示驱动,但许多组件以微调效果更佳,Tinker 将微调过程简化为“轻而易举”,便于快速试验与迭代。来源:@karpathy 于 X,2025年10月1日,https://twitter.com/karpathy/status/1973468610917179630;补充参考:Thinky Machines 帖子,https://x.com/thinkymachines/status/1973447428977336578

来源
2025-10-01
17:09
安德烈·卡尔帕提解读萨顿“苦涩教训”:LLM扩展潜在受限与RL优先智能体崛起,值得交易者关注的AI叙事

据@karpathy称,理查德·萨顿质疑LLM是否真正符合“苦涩教训”,因为其依赖有限且带有人类偏见的人类数据,这对“数据与算力堆叠即可无限扩展”的假设提出挑战,来源:@karpathy。 萨顿主张以强化学习为核心的经典架构,通过与世界交互学习,不进行大规模监督式预训练或人类“遥操作”,并强调以“乐趣、好奇心、世界模型预测质量”等内在动机作为奖励信号,来源:@karpathy。 他强调智能体应默认在测试阶段持续学习,而非“一次训练、永久部署”的静态范式,来源:@karpathy。 卡尔帕提指出,尽管AlphaZero展示了纯RL可超越以人类棋谱初始化的系统(AlphaGo),但围棋是封闭简化环境;前沿LLM通过人类文本初始化数十亿参数,并普遍用RL微调,预训练更像为解决冷启动的“简陋版进化”,来源:@karpathy。 他补充称,当今LLM在预训练、数据策展与RL环境等环节都深受人类工程影响,该领域或仍不足够“苦涩教训化”,来源:@karpathy。 在可操作方向上,他点名内在动机、好奇心、赋能、自博弈与文化等路线,以推动超越“刷榜与堆板子”的研究,凸显AI智能体叙事的活跃度,来源:@karpathy。

来源
2025-09-25
14:29
Karpathy:AI 不会取代放射科医生 - 4 大落地现实、Jevons 悖论与对 AI 加密叙事的启示

据 @karpathy 表示,此前关于计算机视觉将迅速取代放射科医生的预测并未发生,该行业仍在增长而非萎缩。来源:@karpathy 于 X,2025-09-25。 据 @karpathy 称,原因包括基准测试过于狭窄且难以覆盖真实复杂场景、放射科工作远不止图像识别、以及监管、保险与法律责任、扩散与机构惯性等部署现实。来源:@karpathy 于 X,2025-09-25。 据 @karpathy 指出,Jevons 悖论适用:当 AI 工具加速放射科医生时,影像解读总需求可能上升而非下降。来源:@karpathy 于 X,2025-09-25。 据 @karpathy 表示,AI 更可能先作为工具被采用,使工作重心转向监控与监督;由短、机械、独立、封闭且容错的任务构成的岗位更可能更早发生改变。来源:@karpathy 于 X,2025-09-25。 对交易而言,这一框架强调 AI 在高风险、强监管领域的渐进式落地与工作量扩张,对关注算力利用率的 AI 主题资产与加密叙事具有参考价值。来源:@karpathy 于 X,2025-09-25。 完整文章链接由 @karpathy 分享于 Works in Progress。来源:@karpathy 于 X,2025-09-25。

来源
2025-09-13
16:08
Andrej Karpathy 提及 GSM8K(2021):AI基准信号与加密交易者的观察要点

根据 @karpathy 的说法,他在2025年9月13日的X帖子中提到了2021年的GSM8K论文段落,强调对大模型推理评估的持续关注(来源:Andrej Karpathy,2025年9月13日X帖子)。GSM8K是一项用于评估语言模型多步推理能力的小学数学文字题基准,被用作量化推理进步的核心指标(来源:Cobbe 等,GSM8K 论文,2021年)。由于该帖子未宣布任何新模型、数据集或基准分数,目前对AI概念加密资产没有直接且可验证的交易催化(来源:Andrej Karpathy,2025年9月13日X帖子)。交易者应等待可测的GSM8K分数提升或发布说明再进行布局,因为GSM8K专门用于量化推理提升(来源:Cobbe 等,GSM8K 论文,2021年)。

来源
2025-09-09
15:36
苹果发布会2025今日10点直播:新款iPhone时间节点,AAPL交易者需关注

根据@karpathy的消息,苹果新款iPhone发布会将于今日上午10点直播,距离其发文约1.5小时,为AAPL交易者提供清晰的新闻时间窗口以制定事件驱动策略(来源:@karpathy,X,2025年9月9日)。他表示自2007年以来每年都会观看,并再次期待iPhone mini但不指望会出现(来源:@karpathy,X,2025年9月9日)。该帖未提及任何加密货币,因此在直播前该来源未提供对加密市场的直接信号(来源:@karpathy,X,2025年9月9日)。

来源
2025-09-05
17:38
安德烈·卡帕西力赞 OpenAI GPT-5 Pro 代码生成表现:AI 与加密市场的交易信号

根据 @karpathy,OpenAI 的 GPT-5 Pro 在他用“CC”断断续续尝试约一小时未果后,仅用约10分钟就产出可直接运行的代码,显示其在复杂问题上的强劲定性表现。来源:@karpathy(X,2025年9月5日)。 他补充称让“CC”阅读了 GPT-5 Pro 的结果后,对方写了两段文字表示赞赏,进一步强化了其对 GPT-5 Pro 代码生成质量的正面评价。来源:@karpathy(X,2025年9月5日)。 该帖提供了对 GPT-5 Pro 编码能力的开发者级背书,但未包含任何市场反应、价格表现或产品发布信息,因此交易者应将其视作情绪信号而非量化催化。来源:@karpathy(X,2025年9月5日)。

来源
2025-08-28
18:07
Karpathy提出LLM优先接口:5大加密基础设施标的值得关注(RNDR、FIL、AR、GRT、FET)

根据@karpathy,需将人类知识、传感器与执行器从“人类优先、人类可读”转向“LLM优先、LLM可读”,例如每本教材的PDF/EPUB都可映射为完美的机器可读表示,服务于AI智能体。来源:x.com/karpathy/status/1961128638725923119 对交易者而言,这一方向意味着对去中心化、可扩展的机器可读语料存储需求上升,与Filecoin的内容寻址存储与检索模型及Arweave的永久存储特性相契合。来源:x.com/karpathy/status/1961128638725923119;docs.filecoin.io;docs.arweave.org LLM优先流程还需要索引与语义查询层,对应The Graph的子图索引架构以使结构化数据可被应用高效查询。来源:x.com/karpathy/status/1961128638725923119;thegraph.com/docs LLM与智能体工作负载的训练与服务依赖分布式GPU算力,对应Render Network的去中心化GPU市场。来源:x.com/karpathy/status/1961128638725923119;docs.rendernetwork.com 智能体与传感器/执行器的交互需要链上智能体框架与小额支付能力,对应Fetch.ai提供的自治智能体工具链。来源:x.com/karpathy/status/1961128638725923119;docs.fetch.ai

来源
2025-08-27
20:34
Karpathy:AI训练从互联网文本转向对话数据,凸显数据稀缺;加密市场应关注数据赛道

根据@karpathy的说法,预训练时代的关键投入是大规模且多样、高质量的互联网文本,而有监督微调时代的关键投入是高质量的对话数据集,通常由合同工产出问答内容。来源:Andrej Karpathy 在X,2025年8月27日。 这表明瓶颈与价值捕获正转向对精心整理的对话数据及可扩展标注产能的掌控,这直接影响AI模型的竞争优势分布。来源:Andrej Karpathy 在X,2025年8月27日。 对加密市场而言,数据稀缺主题与链上去中心化数据整理与变现的叙事相呼应,使数据相关的AI‑加密细分成为观察资金与催化流向的重点。来源:Andrej Karpathy 在X,2025年8月27日。

来源
2025-08-24
19:46
Andrej Karpathy 披露 75% 主力 LLM 编程流程与多工作流组合:2025 年 AI 交易解读

据 @karpathy 表示,他的 LLM 辅助编程正从单一最优方案转向将多种工作流组合使用,来源:@karpathy 于 2025 年 8 月 24 日在 X 的发布。 他称其中一个主力流程约占使用量的 75%,其余为辅助工作流,来源:@karpathy 于 2025 年 8 月 24 日在 X 的发布。 帖子将此描述为其持续探索最佳 LLM 辅助编程体验的一部分,来源:@karpathy 于 2025 年 8 月 24 日在 X 的发布。 帖子未披露具体工具、产品、评测数据、交易代码或任何加密资产,也未提供量化表现或市场影响信息,来源:@karpathy 于 2025 年 8 月 24 日在 X 的发布。

来源
2025-08-09
16:53
Andrej Karpathy称LLM默认过于Agent化,因基准刷分导致长时间推理:交易要点

根据Andrej Karpathy的说法,随着针对长链路任务的基准刷分增多,LLM正变得“默认过于Agent化”,在编程等场景中模型会倾向于较长时间的推理,来源:Andrej Karpathy,X,2025年8月9日。 根据Andrej Karpathy的说法,这种默认行为超出了他的日常使用需求,体现了从业者更偏好短促、可控推理的实际诉求,来源:Andrej Karpathy,X,2025年8月9日。 根据Andrej Karpathy的说法,该帖为定性从业者观点,没有给出量化指标、厂商信息或任何与加密资产相关的内容,因此未直接指向AI股票或加密AI代币的短期市场影响,来源:Andrej Karpathy,X,2025年8月9日。

来源