从扫描的文档中提取数据c#
Posted
技术标签:
【中文标题】从扫描的文档中提取数据c#【英文标题】:extract data from scanned documents c# 【发布时间】:2015-03-19 19:24:42 【问题描述】:我有一个 PDF 文件,其中包含我们需要导入数据库的数据。 该文件是打印文本的 pdf 扫描文件。 数据的结构是这样的
N° Facture : 45526203
Date : 01/12/2014
Nom de la société : company
但是这些数据并不总是出现在文档的相同区域。所以我想要一个可以识别这个文件的工具或 API。任何建议表示赞赏。
【问题讨论】:
读完每一行后,你可以用Regex.Match(yourLine,RegexString).Value
提取数字、日期或任何你想要的类型
你可以去leadtools.com/sdk/ocr看看。它允许您从图像中提取文本并以不同的格式输出。然后你只需要解析结果来找到你需要的信息
【参考方案1】:
ABBYY Cloud OCR SDK 可以做到。 使用processTextField 方法识别文本字段。 您可以在 ABBYY's website 上找到详细文档。 如果您需要任何帮助,请随时在 cmets 中问我(我为 ABBYY 工作)。
【讨论】:
以上是关于从扫描的文档中提取数据c#的主要内容,如果未能解决你的问题,请参考以下文章