为啥 OCR(MODI.MiLANGUAGES.miLANG_ENGLISH, true, true) 会导致 OCR 运行错误?

Posted

技术标签:

【中文标题】为啥 OCR(MODI.MiLANGUAGES.miLANG_ENGLISH, true, true) 会导致 OCR 运行错误?【英文标题】:Why is OCR(MODI.MiLANGUAGES.miLANG_ENGLISH, true, true) causing an OCR running error?为什么 OCR(MODI.MiLANGUAGES.miLANG_ENGLISH, true, true) 会导致 OCR 运行错误? 【发布时间】:2011-02-28 14:52:33 【问题描述】:

我正在使用 MODI 来读取 tiff 图像并对文本做我需要做的事情。有些图像工作正常,然后其他 tiff 图像总是导致该方法,

OCR(MODI.MiLANGUAGES.miLANG_ENGLISH, true, true)

失败。我对此进行了研究,并在参数列表中尝试了不同的变体,例如“假”、“假”。我也尝试过 SYSDEFAULT 而不是英语,但我仍然得到错误。谁能告诉我为什么它会在某些 tiff 图像上失败而不在其他图像上失败?

我做了一些研究并找到了这个答案:

一个可能的原因是 MODI 试图处理没有任何可识别文本的文件。空白文档,或者只有绘图/涂鸦并且实际上是空白的文档,将导致此异常。

显然这还不够好,因为我无法让应用程序决定对某些图像进行 OCR,而不对其他图像进行 OCR。我处理了异常,但是 OCR 对象没有被初始化,所以我不能从那里做我需要做的事情。

这是一场血腥的噩梦!为什么该方法不能完成它的血腥工作,如果图像有一些不可读的页面,那么就忽略它们? 我正在使用 Windows 7 Ultimate 和 Office 2007 Ultimate。

Visual Studio 版本是 2008 谢谢,

内战

【问题讨论】:

【参考方案1】:
OCR(MODI.MiLANGUAGES.miLANG_ENGLISH, true, true)

你可以用上面的代码代替

OCR(MODI.MiLANGUAGES.miLANG_ENGLISH, false, false)

因为 tiff 图像可能是 2400*2496。

【讨论】:

以上是关于为啥 OCR(MODI.MiLANGUAGES.miLANG_ENGLISH, true, true) 会导致 OCR 运行错误?的主要内容,如果未能解决你的问题,请参考以下文章

大佬们,为啥我用OCR扫描不出字

为啥 Tesseract OCR 库(iOS)根本无法识别文本?

iOS .Tesseract OCR 为啥识别如此纯粹。发动机原理

adobe reader 9.0 pro里为啥都没有OCR文本识别这个选项?

tesseract-ocr

为啥 pdf2image 给我一个空白图像文件?