将图像类型 PDF 转换为启用 OCR 的 PDF

Posted

技术标签:

【中文标题】将图像类型 PDF 转换为启用 OCR 的 PDF【英文标题】:Converting an Image type PDF to an OCR enabled PDF 【发布时间】:2012-01-21 09:43:51 【问题描述】:

我不确定我的标题是否过度描述了我正在尝试做的事情,所以我会尝试详细说明。

有人要求我开发一个小型应用程序,以便有人可以将 PDF 上传到网站。该网站是用 ASP 经典编码的,但我不介意沿用 .net 的路线。

上传后,代码需要检查 PDF 是否基于文本,如果不是,则需要将文档转换为文本类型 PDF。

有没有人知道可以将此图像 PDF 转换为文本 PDF 转换的组件?到目前为止,我已经调查过:

http://pages.cs.wisc.edu/~ghost/ http://www.websupergoo.com/abcocr-1.htm

我没太明白鬼东西在做什么,websupergoo 解决方案似乎是在将图像转换为文本文件?

【问题讨论】:

【参考方案1】:

我认为您可以使用几个网站之一,这些网站可以让您上传图像并将 OCR 数据发回给您。试试www.ocrsdk.com,它是ABBYY最近推出的基于云的OCR SDK。它现在处于封闭测试阶段,因此完全免费使用。

【讨论】:

【参考方案2】:

如果您能负担得起商业选择,您可以将Amyuni PDF Creator .Net 与asp.net 一起使用,或者如果您想继续使用asp-classic,则可以使用Amyuni PDF Creator ActiveX。查看OCR module 以进行 PDF-Image 到 PDF-Text 的处理。

通常的免责声明适用

【讨论】:

太好了,我会考虑你的建议,抱歉回复晚了,我没有收到回复通知,所以没有意识到有回复! 我还没有得到建议的工作(在他们的支持下打开了一张票)但是看起来工作时它将是完美的解决方案!

以上是关于将图像类型 PDF 转换为启用 OCR 的 PDF的主要内容,如果未能解决你的问题,请参考以下文章

将PDF转换为图像的省时方法

将pdf转换为图像但放大后

将图像转换为可搜索的 pdf [关闭]

使用Google应用脚本从PDF到文本转换获取文本

使用 Tesseract OCR 将 PDF 转换为文本

用 R 做 OCR