探索 PDF 数据提取：OCR 与视觉语言模型

探索 PDF 数据提取：OCR 与视觉语言模型 - Blockchain.News

PDF 格式仍然是各种信息交流的基石，从财务报告到学术论文。然而，从 PDF 中提取有意义的内容仍然具有挑战，尤其是对于复杂的元素如图表和表格。根据 NVIDIA 的说法，目前有两种主要方法正在获得关注：光学字符识别（OCR）管道和视觉语言模型（VLMs）。

OCR 管道

专门的 OCR 管道，例如 NVIDIA NeMo Retriever，采用多阶段过程来提高数据提取的准确性。这涉及到对象检测以标识特定元素如图表和表格，随后应用 OCR 和为每种元素类型定制的结构化模型。这种方法特别有效于捕捉这些元素中的详细文本注释和结构化数据。

视觉语言模型

VLMs 提供了一种不同的方法，利用强大的 AI 模型能够同时解释图像和文本。这些模型可以直接从 PDF 页面图像中“理解”视觉元素。例如，Llama 3.2 11B Vision Instruct 模型旨在遵循图像感知指令，提供一种通用解方案的 PDF 数据提取方法。

性能比较

在一项比较研究中，NVIDIA 使用如 Earnings 数据集和 DigitalCorpora 10K 数据集评估了这些方法的有效性。结果表明，NeMo Retriever 在准确性和效率方面优于 VLMs，特别是在处理不同的视觉模式时表现出色。在某些测试中，OCR 管道的召回率比 VLMs 提高了 7.2%。

效率和实用性

这些方法的实际应用还取决于处理速度和成本效益等因素。NeMo Retriever 管道显示出更高的吞吐量和更低的延迟，页面处理速度显著快于 VLMs。对于大规模部署，延迟和成本是关键考虑因素，这种效率非常重要。

额外见解

尽管在结构化数据提取中 OCR 有其优势，但 VLMs 在需要从视觉内容直接生成答案的场景中具独特优势。NVIDIA 正在进行的研究表明，通过高级提示工程和模型微调可以潜在地提高 VLM 的性能，从而缩小与 OCR 管道的准确性差距。

结论

NVIDIA 对 PDF 数据提取的探索突出显示了 OCR 和 VLM 方法的优势和局限性。尽管 OCR 管道在准确性和效率上目前领先，但 VLMs 在不需大量微调的文档解析中提供了有前景的能力。随着这两种技术的发展，它们为多样化数据提取需求提供了互补解决方案。

欲获得更详细的见解，请访问 NVIDIA 的原文。

Image source: Shutterstock

Bookmark