Harvey.ai 使用 BigLaw Bench: Arena 增强 AI 评估

Harvey.ai 使用 BigLaw Bench: Arena 增强 AI 评估 - Blockchain.News

Harvey.ai 推出了一种名为 BigLaw Bench: Arena (BLB: Arena) 的新型 AI 评估框架，旨在评估 AI 系统处理法律任务的有效性。根据 Harvey.ai 的说法，这种方法允许对 AI 模型进行全面比较，让法律专家通过对比表达他们的偏好。

创新的评估流程

BLB: Arena 的运作方式是让法律专业人士审查不同 AI 模型在各种法律任务上的输出。律师们选择他们偏好的输出并解释他们的选择，从而让每个模型的优势得到细致理解。与传统基准相比，这一过程提供了更灵活的评估，重点关注系统与经验丰富的律师的共鸣度。

每月，Harvey 的主要 AI 系统与基础模型、内部原型，甚至人类在多项法律任务中进行竞争。这种严格测试涉及数百个法律任务，由多位律师审核结果，以确保多元的视角。通过这些评估收集的广泛数据用于生成 Elo 分数，以量化每个系统的相对性能。

除了定量分数外，BLB: Arena 还收集定性反馈，提供偏好背后的原因见解。反馈分为偏好驱动因素，如对齐度、信任、展示和智能。此类分类有助于将非结构化反馈转化为可行数据，使 Harvey.ai 能够根据特定用户偏好改进其 AI 模型。

在最近的评估中，基于 GPT-5 的 Harvey Assistant 显示出显著的性能改进，超过了其他模型，证实其准备好用于生产。偏好驱动因素数据表明，智能是人类偏好的关键因素，强调系统有效处理复杂法律问题的能力。

从 BLB: Arena 获得的见解对于 Harvey.ai 关于 AI 系统选择和增强的决策过程非常关键。通过考虑律师的偏好，该框架帮助识别最有效的基础模型，为法律专业人士开发出色的 AI 解决方案。

Image source: Shutterstock