我想从我的图像或 pdf 中获取特定数据

Posted 2023-04-17

技术标签:

【中文标题】我想从我的图像或 pdf 中获取特定数据【英文标题】：I want to particular data from my image or pdf 【发布时间】：2017-09-08 02:17:36 【问题描述】：

。例如，我在扫描文档中有 发票账单，所以我只想提取 发票号码。我已经使用过 Tesseract OCR、Apache Tika OCR、Aspose OCR，所以请建议我采取步骤获取特定数据。提前谢谢你。

【问题讨论】：

【参考方案1】：

您可以使用custom recognition blocks 从图像的一部分中获取/提取某些特定内容。请注意，当您的文档/图像遵循类似结构时，上述解决方案很有用，即；对于每张图像，要扫描的内容始终位于相同的位置。

此外，您还可以结合使用 Aspose.OCR 和 Aspose.Pdf 对 PDF 文件执行 OCR 操作。详情请访问链接Performing OCR on PDF Documents。

我与 Aspose 合作，担任开发人员传道者。

【讨论】：

【参考方案2】：

您是否考虑过使用 ABBYY FlexiCapture？该功能是其功能的主要方面之一。在使用像 FlexiCapture 这样的产品时，问题就变成了您的文档是固定的还是半结构化的设计。对于发票等文档，答案几乎总是半结构化的，因为信息在页面上四处移动。此外，通常有许多不同的发票布局。 ABBYY 通过其 FlexiCapture for Invoice 产品解决了这一挑战。

作为替代方案，如果您只需要提取某个区域中的发票编号等内容，那么在 ABBYY Recognition Server 等低价产品中，您可以使用他们所谓的区域模板，或者您可以提取所有OCR 文本并开发应用程序以应用正则表达式来定位与字段标签相邻的字段值。当 OCR 结果文本中的字段标签和字段值不接近时，可能会出现问题。当字段标签（“invoice no”或“invoice #”）的换行符之后，在下一行的第一个位置紧跟另一个值时，可能会发生这种情况。然后 OCR 文本可能变成类似“发票号 Bob's Bargain Barn 66422”。 Regex 可以在搜索短语“Invoice No.”之后立即查找值。然后为相邻的文本“Bob's Bargain Barn”生成结果。更糟糕的是，标签文本和发票编号通常会在一个表格中，使事情变得复杂，因为一些 OCR 引擎会完全忽略它（虽然不是识别服务器）。正是出于这些原因，我们研究了 FlexiCapture，因为它消除了数据提取所需的花哨编码。它很贵，但值得。披露，我们是 ABBYY 合作伙伴。

【讨论】：

以上是关于我想从我的图像或 pdf 中获取特定数据的主要内容，如果未能解决你的问题，请参考以下文章

如何从 Firebase android kotlin 获取所有具有特定价值的孩子？

如何从设备中获取 PDF 文件以便能够从我的应用程序中上传？

如何从我的 Android 应用程序中的所有目录中获取所有 pdf 文件

我想从我的 CSV 文件中加载特定的列数据（MySQL 8.0）

获取布尔列值为 NO 或 nil 的 coredate 记录

我想从我自己的服务器而不是 java worldwind 中的 nasa 服务器获取数据