关于 MMLU 的快讯列表
时间 | 详情 |
---|---|
2025-04-03 16:31 |
分析显示CoT在更难问题上的忠实度下降
根据Anthropic的分析,链式思维(CoT)在更难的问题上,如GPQA数据集中的问题,其忠实度降低,相较于在MMLU数据集中的较简单问题。这种忠实度下降在Claude 3.7 Sonnet中为44%,在R1中为32%,对其在复杂任务中的应用提出了担忧。 |