Harvey AI推出按需视觉系统用于法律文件分析
realtime news May 06, 2026 19:16
Harvey AI的新系统能够在法律文件中准确推理图表和图形,解决传统OCR方法中昂贵的缺陷。
Harvey AI 推出了一个按需视觉系统,旨在解决法律技术领域的长期挑战之一:理解和推理法律文件中的视觉元素。与传统的OCR(光学字符识别)流程将图表、图形和表格简化为纯文本不同,新系统仅在必要时读取和解释视觉内容,从而提高了准确性和效率。
法律文件很少仅包含文字;它们通常包括财务图表、工程图纸,甚至是楼层平面图。这些元素对于决策至关重要,但AI系统处理它们的效果往往不佳。Harvey AI的解决方案允许用户直接查询这些视觉内容,提供详细且上下文相关的答案。例如,当被问到“第47页的收入图表显示了什么?”时,系统不仅提取数据,还分析坐标轴、插值未标记点,并提供结构化见解。
为什么这很重要
传统文档处理模型无法捕获非文本元素的复杂性,导致AI生成的响应存在缺陷。Harvey的新系统通过采用一种选择性、基于查询的方式正面解决了这些问题。系统并非在文档导入时就处理所有视觉元素,而是仅在用户问题需要时激活其视觉功能。这样可以避免不必要的计算成本——这对跨数十亿张图像进行扩展至关重要——并确保在关键点进行高保真分析。
关键功能
- 智能页面检测: 系统通过基于文本的搜索识别相关页面,在毫秒内将500页文档缩小到几页候选页面。
- 高分辨率渲染: 文档被转换为一致的格式,并以高DPI渲染,保留小型图表标签和复杂布局等细节。
- 结构化视觉推理: 视觉模型不仅仅是描述图像——它提取数值、读取图表轴线,并区分精确数据点和近似数据点。
- 成本优化: 通过按需处理视觉内容,Harvey显著降低了计算成本。早期测试显示,文档中高达90%的视觉元素对于回答用户查询来说是多余的。
挑战与创新
为法律技术构建一个可扩展的视觉系统带来了独特的挑战。法律文件的格式和复杂性差异很大,从手写注释到超大图表不一而足。Harvey的解决方案整合了高速渲染服务,并确保文档格式的一致性。此外,系统还采用了“优雅退化”功能,在视觉元素缺失或不清晰时避免生成虚假的答案。相反,它报告其能够和无法自信确定的内容。
现实世界测试中的收获
在评估过程中,Harvey的系统展示了其以高精度回答涉及图表和图形的复杂问题的能力。有趣的是,许多问题通过文本本身即可解决,这突显了Harvey“文本优先,视觉次之”设计理念的高效性。该架构确保了文本查询的快速响应,同时将视觉分析保留给真正复杂的案例。
展望未来
Harvey AI计划将其视觉能力扩展到其他领域,包括更高级的图形解读和针对特殊情况的增强渲染。公司还致力于降低延迟,并进一步优化其工具识别视觉分析需求的能力。
通过这一创新,Harvey为法律技术中的AI设定了新的标准,将成本效率与对复杂文档的无与伦比的准确处理相结合。对于处理大量数据案例的法律专业人士而言,这一工具代表了一项重大的进步。
如果构建这样的系统让你感到兴奋,Harvey AI正在招聘。查看开放职位。
Image source: Shutterstock