AI 快讯列表关于 QwQ32B
| 时间 | 详情 |
|---|---|
| 09:45 |
谷歌最新分析:强化学习促生DeepSeek R1与QwQ32B内部多代理辩论,大幅提升推理准确率
据X用户@godofprompt披露,谷歌研究人员发现DeepSeek R1与QwQ32B等前沿推理模型在强化学习仅优化答案准确率的条件下,会自发产生链式思维中的多代理内部辩论,而非靠显式训练;据其报道,放大这种多视角对话可在高难推理任务上进一步提升表现。该帖子称,单纯延长链式思维并不显著改善结果,真正有效的是内部视角间的质疑、校验与互相矛盾,研究者将其称为“思想社会”。据@godofprompt,总结出的产业启示是:未来应引入组织化的结构化分工与争辩机制(角色、规范与流程),超越单线程对话,以获得更高的可靠性与可扩展性。 |