Harvey.ai 使用 BigLaw Bench: Arena 增强 AI 评估 - Blockchain.News

Harvey.ai 使用 BigLaw Bench: Arena 增强 AI 评估

realtime news Nov 07, 2025 12:13

Harvey.ai 引入 BigLaw Bench: Arena,这是一个用于法律任务的新 AI 评估框架,通过专家对比来提供 AI 系统性能的深入见解。

Harvey.ai 使用 BigLaw Bench: Arena 增强 AI 评估

Harvey.ai 推出了一种名为 BigLaw Bench: Arena (BLB: Arena) 的新型 AI 评估框架,旨在评估 AI 系统处理法律任务的有效性。根据 Harvey.ai 的说法,这种方法允许对 AI 模型进行全面比较,让法律专家通过对比表达他们的偏好。

创新的评估流程

BLB: Arena 的运作方式是让法律专业人士审查不同 AI 模型在各种法律任务上的输出。律师们选择他们偏好的输出并解释他们的选择,从而让每个模型的优势得到细致理解。与传统基准相比,这一过程提供了更灵活的评估,重点关注系统与经验丰富的律师的共鸣度。

每月竞赛

每月,Harvey 的主要 AI 系统与基础模型、内部原型,甚至人类在多项法律任务中进行竞争。这种严格测试涉及数百个法律任务,由多位律师审核结果,以确保多元的视角。通过这些评估收集的广泛数据用于生成 Elo 分数,以量化每个系统的相对性能。

定性见解和偏好驱动因素

除了定量分数外,BLB: Arena 还收集定性反馈,提供偏好背后的原因见解。反馈分为偏好驱动因素,如对齐度、信任、展示和智能。此类分类有助于将非结构化反馈转化为可行数据,使 Harvey.ai 能够根据特定用户偏好改进其 AI 模型。

示例结果和系统改进

在最近的评估中,基于 GPT-5 的 Harvey Assistant 显示出显著的性能改进,超过了其他模型,证实其准备好用于生产。偏好驱动因素数据表明,智能是人类偏好的关键因素,强调系统有效处理复杂法律问题的能力。

BLB: Arena 的战略使用

从 BLB: Arena 获得的见解对于 Harvey.ai 关于 AI 系统选择和增强的决策过程非常关键。通过考虑律师的偏好,该框架帮助识别最有效的基础模型,为法律专业人士开发出色的 AI 解决方案。

Image source: Shutterstock