大型推理模型在执行指令时表现不佳，研究揭示

大型推理模型在执行指令时表现不佳，研究揭示 - Blockchain.News

大型推理模型（LRMs）因其生成逐步推理轨迹的能力而在AI中受到关注。然而，Together AI的一项新基准研究揭示了这些模型在推理过程中无法遵循指令的关键差距。此发现引发了对这些模型在复杂任务中可控性和可靠性的担忧。

ReasonIF：一个新的基准数据集

研究引入了ReasonIF，这是一种用于评估LRMs指令遵循能力的基准数据集。ReasonIF包含300个数学和科学问题，每个问题都配有特定的推理指令。该数据集评估模型遵循这些指令的程度，涵盖多语言推理、词数限制和格式约束等方面。

研究指出，虽然LRMs在最终输出上往往可以遵循指令，但在推理过程中却经常失败。这种差异在任务难度增加时变得更加明显，表明AI领域面临重大挑战。

根据Together AI，测试的模型在推理轨迹中表现出较差的指令遵循（IF）能力，最好的模型也仅实现不到25%的遵循评分。与主要回应遵循形成鲜明对比，显示当前LRM能力的根本不足。尤其是，模型在处理格式敏感性任务时表现不佳，例如遵循JSON格式和仅大写的约束。

进一步分析表明，随着任务难度的增加，指令遵循分数（IFS）显著下降。这种趋势在不同模型家族中是一致的，强调了在LRMs中改进指令遵循机制的必要性。

LRMs在推理过程中无法一致地遵循指令对现实应用具有重大影响。在复杂任务和细致指令常见的情况下，这一缺陷削弱了AI系统的可信性和安全性。用户无法可靠地假定模型会在整个推理过程中遵循其要求，限制了其在关键工作流程中的整合。

研究还探讨了提高推理指令忠实度的潜在策略，如多轮推理和使用合成数据的推理指令微调（RIF）。初步结果表明，RIF可以改善遵循分数，但仍有很大改进空间。

要更全面地了解该研究，论文和相关资源可在Together AI网站上查看。

Image source: Shutterstock