AutoJudge通过增强的令牌处理革新LLM推理
realtime news Dec 04, 2025 18:42
AutoJudge引入了一种新方法,通过优化令牌处理来加速大型语言模型推理,减少人工标注需求,并在准确率损失最小的情况下提升处理速度。
据together.ai报道,AutoJudge作为大型语言模型(LLM)领域的一个突破性工具,正在改变推理加速的格局。通过利用自监督学习,AutoJudge识别关键的令牌错配,有效地将推理过程加速至最高2倍,而无需人工数据标注。
AutoJudge方法
AutoJudge通过利用一种称为有损推测解码的方法运作,该方法选择性地接受不会显著影响最终输出质量的令牌。此方法依赖于一个自监督训练的分类器,以识别哪些错配可以在不降低模型性能的情况下接受。该工具每个周期最多可处理40个草稿令牌,与传统推测解码方法相比提供了显著的速度优势。
AutoJudge方法的关键在于消除了对人工标注人员的需求,而是自动挖掘重要令牌。这是通过生成目标答案并识别草稿和目标模型之间的分歧来实现的,从而突出显示对维护输出质量至关重要的令牌。
性能和集成
基准测试展示了AutoJudge在提高接受令牌数量的同时保持高准确性的能力。与无损推测解码相比,AutoJudge通过在准确率损失最小的情况下接受更多令牌,表现出卓越的性能。例如,在数学推理任务中,其吞吐量提高至最高1.49倍,而准确率只下降了2%。
此外,AutoJudge可以无缝集成到现有的LLM框架中,如vLLM和TensorRT-LLM,使其成为开发人员在不牺牲质量的情况下提高推理速度的多功能工具。
应用和局限
AutoJudge的应用领域涵盖多种,包括数学推理和编程,在这些领域中它显著提高了令牌接受率。然而,其效果可能会因任务性质而异,由于创意写作任务对细致入微的语言生成的依赖,提供的速度改善空间较小。
尽管有这些限制,AutoJudge在自动化令牌处理流水线中取得了重要的进展,减少了对人工数据标注的依赖,并优化了跨多种应用的模型推理过程。
Image source: Shutterstock