从扫描的文档中提取数据c#

Posted 2023-04-17

技术标签:

【中文标题】从扫描的文档中提取数据c#【英文标题】：extract data from scanned documents c# 【发布时间】：2015-03-19 19:24:42 【问题描述】：

我有一个 PDF 文件，其中包含我们需要导入数据库的数据。该文件是打印文本的 pdf 扫描文件。数据的结构是这样的

N° Facture : 45526203   
Date : 01/12/2014
Nom de la société : company

但是这些数据并不总是出现在文档的相同区域。所以我想要一个可以识别这个文件的工具或 API。任何建议表示赞赏。

【问题讨论】：

读完每一行后，你可以用Regex.Match(yourLine,RegexString).Value提取数字、日期或任何你想要的类型你可以去leadtools.com/sdk/ocr看看。它允许您从图像中提取文本并以不同的格式输出。然后你只需要解析结果来找到你需要的信息 【参考方案1】：

ABBYY Cloud OCR SDK 可以做到。使用processTextField 方法识别文本字段。您可以在 ABBYY's website 上找到详细文档。如果您需要任何帮助，请随时在 cmets 中问我（我为 ABBYY 工作）。

【讨论】：

以上是关于从扫描的文档中提取数据c#的主要内容，如果未能解决你的问题，请参考以下文章

用于从扫描文档中提取字段的图像配准算法/技术？

从扫描的文档/图像中可靠地提取身份字段？

从复杂文档进行 OCR 扫描

我可以从 C# .Net 驱动程序中多个文档中存在的数组中提取多个元素吗

从 C# 源文件中提取文档注释 [关闭]

如何在 C# 中从 MS Office 文档中提取文本