从扫描的文档中提取数据c#

Posted

技术标签:

【中文标题】从扫描的文档中提取数据c#【英文标题】:extract data from scanned documents c# 【发布时间】:2015-03-19 19:24:42 【问题描述】:

我有一个 PDF 文件,其中包含我们需要导入数据库的数据。 该文件是打印文本的 pdf 扫描文件。 数据的结构是这样的

N° Facture : 45526203   
Date : 01/12/2014
Nom de la société : company

但是这些数据并不总是出现在文档的相同区域。所以我想要一个可以识别这个文件的工具或 API。任何建议表示赞赏。

【问题讨论】:

读完每一行后,你可以用Regex.Match(yourLine,RegexString).Value提取数字、日期或任何你想要的类型 你可以去leadtools.com/sdk/ocr看看。它允许您从图像中提取文本并以不同的格式输出。然后你只需要解析结果来找到你需要的信息 【参考方案1】:

ABBYY Cloud OCR SDK 可以做到。 使用processTextField 方法识别文本字段。 您可以在 ABBYY's website 上找到详细文档。 如果您需要任何帮助,请随时在 cmets 中问我(我为 ABBYY 工作)。

【讨论】:

以上是关于从扫描的文档中提取数据c#的主要内容,如果未能解决你的问题,请参考以下文章

用于从扫描文档中提取字段的图像配准算法/技术?

从扫描的文档/图像中可靠地提取身份字段?

从复杂文档进行 OCR 扫描

我可以从 C# .Net 驱动程序中多个文档中存在的数组中提取多个元素吗

从 C# 源文件中提取文档注释 [关闭]

如何在 C# 中从 MS Office 文档中提取文本