Harvey AI推出按需视觉系统用于法律文件分析

Harvey AI 推出了一个按需视觉系统，旨在解决法律技术领域的长期挑战之一：理解和推理法律文件中的视觉元素。与传统的OCR（光学字符识别）流程将图表、图形和表格简化为纯文本不同，新系统仅在必要时读取和解释视觉内容，从而提高了准确性和效率。

法律文件很少仅包含文字；它们通常包括财务图表、工程图纸，甚至是楼层平面图。这些元素对于决策至关重要，但AI系统处理它们的效果往往不佳。Harvey AI的解决方案允许用户直接查询这些视觉内容，提供详细且上下文相关的答案。例如，当被问到“第47页的收入图表显示了什么？”时，系统不仅提取数据，还分析坐标轴、插值未标记点，并提供结构化见解。

为什么这很重要

传统文档处理模型无法捕获非文本元素的复杂性，导致AI生成的响应存在缺陷。Harvey的新系统通过采用一种选择性、基于查询的方式正面解决了这些问题。系统并非在文档导入时就处理所有视觉元素，而是仅在用户问题需要时激活其视觉功能。这样可以避免不必要的计算成本——这对跨数十亿张图像进行扩展至关重要——并确保在关键点进行高保真分析。

关键功能

智能页面检测： 系统通过基于文本的搜索识别相关页面，在毫秒内将500页文档缩小到几页候选页面。
高分辨率渲染： 文档被转换为一致的格式，并以高DPI渲染，保留小型图表标签和复杂布局等细节。
结构化视觉推理： 视觉模型不仅仅是描述图像——它提取数值、读取图表轴线，并区分精确数据点和近似数据点。
成本优化： 通过按需处理视觉内容，Harvey显著降低了计算成本。早期测试显示，文档中高达90%的视觉元素对于回答用户查询来说是多余的。

挑战与创新

为法律技术构建一个可扩展的视觉系统带来了独特的挑战。法律文件的格式和复杂性差异很大，从手写注释到超大图表不一而足。Harvey的解决方案整合了高速渲染服务，并确保文档格式的一致性。此外，系统还采用了“优雅退化”功能，在视觉元素缺失或不清晰时避免生成虚假的答案。相反，它报告其能够和无法自信确定的内容。

现实世界测试中的收获

在评估过程中，Harvey的系统展示了其以高精度回答涉及图表和图形的复杂问题的能力。有趣的是，许多问题通过文本本身即可解决，这突显了Harvey“文本优先，视觉次之”设计理念的高效性。该架构确保了文本查询的快速响应，同时将视觉分析保留给真正复杂的案例。

展望未来

Harvey AI计划将其视觉能力扩展到其他领域，包括更高级的图形解读和针对特殊情况的增强渲染。公司还致力于降低延迟，并进一步优化其工具识别视觉分析需求的能力。

通过这一创新，Harvey为法律技术中的AI设定了新的标准，将成本效率与对复杂文档的无与伦比的准确处理相结合。对于处理大量数据案例的法律专业人士而言，这一工具代表了一项重大的进步。

如果构建这样的系统让你感到兴奋，Harvey AI正在招聘。查看开放职位。

Image source: Shutterstock

Bookmark