推测解码将LLM提速2–3倍 | AI快讯详情 | Blockchain.News
最新更新
5/26/2026 8:38:00 AM

推测解码将LLM提速2–3倍

推测解码将LLM提速2–3倍

据@_avichawla称,小模型猜测K词并由大模型一次验证,可实现2–3倍推理提速。

原文链接

详细分析

人类、谷歌和Meta正通过投机解码将LLM推理加速2-3倍,该技术借鉴了20世纪90年代CPU设计中的分支预测方法。投机解码解决了GPU在自回归令牌生成期间的流水线停顿问题,正如Avi Chawla在2026年5月的分析中所详述。该方法让服务超过20亿用户的AI概览更快响应,同时保持输出分布完全一致。

投机解码核心要点

  • 小型草稿模型预测多个未来令牌,大模型在一次并行前向传递中验证这些令牌,类似于预填充阶段。
  • vLLM、TensorRT-LLM和SGLang等主流框架已内置支持,可在不改变最终概率的情况下降低延迟。
  • 企业采用重点针对高吞吐量推理工作负载,显著提升之前在解码阶段闲置的GPU利用率。

深入解析投机解码机制

LLM推理的核心挑战在于每个新令牌都依赖之前所有令牌,导致预填充后必须顺序生成。GPU擅长并行处理令牌批次,但在每次加载数十亿参数后仅生成一个令牌时却利用率低下。投机解码通过让小型辅助模型提前生成K个候选令牌来解决此问题,主模型随后在一次前向传递中同时评估所有候选,令牌验证过程与计算饱和的预填充操作相似。预测正确时每次大模型调用可推进多达K+1个令牌,预测错误时仅接受正确前缀并重试,但数学分布与标准解码完全相同。

业务影响与变现机会

大规模推理服务商可立即降低成本,因为每生成响应所需的大模型调用次数减少。这直接转化为更低的云GPU费用和现有硬件集群的更高吞吐量。服务提供商可通过提供分层延迟SLA或在不增加算力的情况下扩展上下文长度来实现变现。实施挑战主要在于将草稿模型集成到现有管道并针对特定领域调整接受阈值,不过vLLM等工具已大幅降低门槛。

未来展望与行业转变

投机解码有望成为生产LLM堆栈的标准配置,硬件厂商将针对多令牌验证工作负载进行优化。结合高效草稿模型持续预训练的组织将获得竞争优势。道德最佳实践强调对推理优化的透明度,确保用户理解质量未变。未来几年该技术将扩展至多模态模型和代理系统,进一步拉大优化与基线推理平台之间的差距。

常见问题

投机解码如何保持输出分布完全一致?

验证步骤始终仅接受大模型在标准解码下会生成的令牌,因此无论草稿预测如何,数学等价性都得到保证。

哪些框架提供内置投机解码支持?

vLLM、TensorRT-LLM和SGLang目前已提供生产就绪实现,开发者只需最少配置即可启用。

企业在实际部署中可期待多少性能提升?

真实部署通常在解码密集型工作负载上实现2-3倍吞吐量提升,同时在验证阶段保持高GPU利用率。

Avi Chawla

@_avichawla

Daily tutorials and insights on DS, ML, LLMs, and RAGs • Co-founder