快讯列表

关于 文本扩散 的快讯列表

时间 详情
2025-10-20
18:58
Karpathy 解析 LLM 文本扩散(2025):双向注意力相较自回归显著提高训练成本

据 @karpathy 表示,文本扩散可以用带双向注意力的普通 Transformer 实现,通过按噪声日程反复重掩码并重新采样所有 token。来源:@karpathy。 他称,扩散是图像与视频生成的主流范式,而文本以自回归为主,音频两种方式并存。来源:@karpathy。 他补充,去除繁复形式化后可得到简单基线算法,离散扩散在连续情形上更接近流匹配。来源:@karpathy。 他解释,自回归是仅向后注意并追加 token,而扩散是在双向注意下刷新整块 token 画布。来源:@karpathy。 他指出,双向注意力能带来更强的语言模型,但因无法在序列维并行,使训练成本更高。来源:@karpathy。 他还提出,LLM 堆栈中可能进一步在两种范式之间进行插值或泛化。来源:@karpathy。 对交易者而言,关键在于双向文本扩散相对自回归的训练成本权衡,这直接影响对训练效率的评估。来源:@karpathy。

来源