推理模型第二缩放律新发现:增加上下文令牌数可持续提升准确率
据 Ethan Mollick 在 X 指出,许多推理基准在提供更多令牌后继续提升表现,显示第二缩放律并未完全平台化,基准分数受到令牌预算限制(来源为 Ethan Mollick 引用 Joel Becker 的 Substack 分析)。据 Joel Becker 的 Substack 报道,允许更长思维链与简单工具化草稿本的提示框架,在放宽上下文上限后,复杂任务的通过率明显上升,评测上限更多反映上下文约束而非模型真实能力。该分析还称,企业可通过更大上下文窗口、动态少样本检索与预算感知路由,在无需重新训练的情况下提升代码生成、数学推理与多步规划的准确率,并通过选择更高上下文计费梯度与缓存策略优化成本回报。
原文链接详细分析
人工智能缩放定律的演变已成为人工智能进步的基石,特别是模型性能如何随着资源增加而改善。一个被低估的事实是,第二缩放定律——通常指通过更多标记的推理时间计算益处——在许多任务中并未完全趋于平稳。相反,为推理AI模型提供更多标记可以产生更好的答案,尤其是在简单提示框架的配合下。这一洞见挑战了早期关于AI训练和推理收益递减的假设。例如,复杂推理或问题解决任务的基准性能往往不是受模型架构限制,而是受评估期间分配的标记预算限制。根据OpenAI 2020年关于神经语言模型缩放定律的研究论文,性能随着计算、数据和参数的增加而可预测地扩展,但最近的扩展强调了推理缩放。这在DeepMind 2022年的Chinchilla论文中得到进一步探讨,该论文调整了数据-参数比率以提高效率。到2023年4月,Google研究出版物中详细描述的链式思考提示实验显示,允许模型生成中间推理步骤——有效使用更多标记——在GSM8K基准上将准确率提高了高达50%,无需重新训练。这一基于标记的缩放为企业在实时场景中提升AI应用打开了大门,例如客户服务聊天机器人或数据分析工具,只需优化提示工程和标记分配,而无需投资更大模型。从商业角度来看,这一第二缩放定律在AI部署中呈现出重大市场机会。公司可以通过开发基于任务复杂性动态分配推理标记的平台来货币化AI,从而降低成本并改善结果。例如,在软件即服务领域,构建在Anthropic或OpenAI模型上的提供商可以提供分层定价模型,其中高级用户访问更高的标记限制用于高级推理任务。实施挑战包括管理计算开销,因为更多标记会增加延迟和能源消耗——国际能源署2024年报告指出AI的电力需求预计到2026年将翻倍。解决方案涉及高效标记管理技术,如修剪不必要的生成或使用蒸馏模型,正如Meta AI 2023年关于高效推理的论文所展示。竞争格局以Google DeepMind和OpenAI等关键玩家为主导,他们的Gemini和GPT-4模型在标记扩展推理中表现出色。监管考虑因素出现在数据隐私中,欧盟AI法案2024年要求高风险AI系统透明,确保标记缩放不会在未经同意的情况下处理敏感信息。从伦理上讲,最佳实践包括审计扩展推理链中放大的偏见,促进跨行业的公平AI部署。展望未来,基于标记缩放的非平稳性质暗示了对AI趋势的深刻未来影响。麦肯锡全球研究所2024年分析预测,到2030年,AI可能为全球GDP增加13万亿美元,其中推理优化通过提升生产力贡献20%的价值。企业可以通过投资支持可扩展标记使用的AI基础设施来利用这一点,例如AWS或Azure优化的长上下文模型云服务。实际应用包括自动化法律分析,其中模型处理大量文档以高标记计数提供精确洞见,根据Deloitte 2023年研究,可能将审查时间减少40%。扩展标记生成期间的模型幻觉挑战可以通过验证框架缓解,确保可靠性。总体而言,这一缩放动态将焦点从单纯模型大小转移到智能推理策略,促进AI市场的创新和竞争优势。常见问题:什么是AI缩放定律及其对商业的影响?AI缩放定律描述性能如何随着数据和计算等资源增加而改善,直接使企业能够构建具有更好投资回报的成本有效AI解决方案。公司如何实施基于标记的缩放?通过使用提示技术和API集成允许动态标记调整,公司可以提升AI而无需全面重新训练,正如OpenAI 2024年开发者指南中所见。(字数:约1250)
Ethan Mollick
@emollickProfessor @Wharton studying AI, innovation & startups. Democratizing education using tech