Harvey 发布开源法律代理基准 LAB

专注于法律行业 AI 的公司 Harvey 推出了法律代理基准（Legal Agent Benchmark，简称 LAB），这是一个开源框架，旨在评估和改进 AI 代理在法律工作中的表现。LAB 的范围非常广泛：它包括 24 个法律实践领域的 1,200 多项任务，背后支撑的是高达 75,000 条由专家撰写的评分标准。该基准旨在帮助律师事务所了解 AI 在高风险法律环境中可以替代或补充人类劳动的领域。

与以前专注于短期任务（如合同审查或文件比较）的基准不同，LAB 强调长期的法律工作。每项任务模拟真实的法律工作流程，要求代理分析复杂的客户事务、综合相关信息，并产出风险评估或草拟备忘录等交付成果。这种方法借鉴了大型律师事务所的任务分配和审查流程，结合了上下文分析和高水平的审查。

LAB 的工作原理

LAB 的结构将每项任务分为四个阶段：

指令： 类似于高级合伙人向初级助理分配任务的简要指示。
环境： 一组封闭的客户事务文件，包括合同、模板和相关文件。
输出： 符合专业法律标准的交付成果，例如备忘录或报告。
验证： 使用专家评分标准的二元通过/未通过标准进行评分，确保事实、分析和格式的严格评估。

目标是所有评分通过，代理必须满足 100% 的评分标准才能通过。例如，一项企业并购 (M&A) 任务可能要求代理分析 4.58 亿美元收购中的控制权变更条款。代理必须识别风险、提出缓解建议并准备一份详细的备忘录。即使遗漏一个关键风险，该任务也被视为未完成，这反映了法律工作中不容失误的性质。

重要性

AI 在法律行业的采用仍处于初期阶段，律所谨慎探索自动化如何在不影响质量的情况下提供价值。LAB 提供了一种透明的方法来衡量 AI 的实用性和局限性，帮助律所计算 AI 系统的投资回报率 (ROI)。通过识别代理的优势和不足，LAB 使得更具战略性的部署成为可能，例如将常规任务交给 AI，而将复杂的判断留给人类律师。

LAB 发布的时机值得注意。过去一年中，不同行业的 AI 基准取得了快速发展，从软件工程（SWE-Bench Pro）到金融（FinanceAgent）。Harvey 决定将 LAB 开源，与这一趋势保持一致，促进法律专业人士、AI 研究人员和律师事务所之间的合作。在初版中没有排行榜的设计，表明 Harvey 希望通过社区反馈迭代完善基准，从而确保未来评估的清晰性和公平性。

未来计划

Harvey 计划大幅扩展 LAB。未来的发展包括更广泛覆盖大型律所的实践领域、内部法律工作流程以及资产管理和银行等相关领域。此外，公司还计划增强任务的多样性，以便更好地微调 AI 模型并提高其在各种法律环境中的适用性。

开源和闭源 AI 模型的初步基准测试结果预计将在未来几周内发布，提供有关法律 AI 现状的洞见。研究人员、律所和技术专家受邀通过测试基准、审计评分标准或提出新任务来贡献力量。

LAB 是将 AI 研究与实际法律应用相结合的重要一步。随着律师事务所越来越多地探索如何将人工智能整合到其工作流程中，像 LAB 这样的工具可能成为指南，指导采用策略和技术开发。

Image source: Shutterstock

Bookmark

Harvey 发布开源法律代理基准 LAB

LAB 的工作原理

重要性

未来计划

Premium Sponsors

Flash News