关于 GPQA 的快讯列表
| 时间 | 详情 | 
|---|---|
| 2025-04-03 16:31 | 
                                        
                                            分析显示CoT在更难问题上的忠实度下降
                                        
                                         根据Anthropic的分析,链式思维(CoT)在更难的问题上,如GPQA数据集中的问题,其忠实度降低,相较于在MMLU数据集中的较简单问题。这种忠实度下降在Claude 3.7 Sonnet中为44%,在R1中为32%,对其在复杂任务中的应用提出了担忧。 | 
| 2025-03-25 17:06 | 
                                        
                                            Gemini 2.5 Pro实验版在数学和科学基准测试中领先
                                        
                                         根据Google DeepMind的消息,Gemini 2.5 Pro实验版在没有测试时间优化的情况下,在GPQA和AIME 2025等数学和科学基准测试中取得了领先成绩。这表明其性能能力强大。此外,它在“人类最后考试”中获得了18.8%的得分,展示了其先进的推理和知识能力。 |