正方体:指定文本区域

Posted

技术标签:

【中文标题】正方体:指定文本区域【英文标题】:Tesseract: Specifying regions of text 【发布时间】:2012-10-09 22:07:56 【问题描述】:

我正在使用 tesseract-ocr-3.01 扫描许多表单。表单都遵循模板,所以我已经知道文本的区域/矩形在哪里。

在使用命令行工具时,有没有办法将这些区域传递给 tesseract?

【问题讨论】:

【参考方案1】:

感谢this thread,我找到了答案。

tesseract 似乎支持 uzn 格式(用于 unvl 测试)。

来自线程:

使用参数“-psm 4”调用 tesseract 并重命名 uzn 文件 与图像名称相同的图像似乎有效。

示例:如果我们有C:\input.tifC:\input.uzn,我们这样做:

tesseract -psm 4 C:\input.tif C:\output

【讨论】:

【参考方案2】:

这可能不是一个最佳答案,但这里是:

我不确定命令行工具是否有指定文本区域的选项。

您可以做的是在另一个平台上使用 Tesseract 包装器(EmguCV 内置了 Tesseract)。所以你得到扫描的图像,裁剪出文本区域,然后一次一个地把它们交给 Tesseract。这样,您还可以避免 Tesseract 的页面布局分析中的任何不准确之处。

例如。

Image<Gray,Byte> scannedImage = new Image<Gray,Byte>(path_to_scanned_image);
//assuming you know a text region
Image<Gray,Byte> textRegion = new Image(100,20);
scannedImage.ROI = new Rectangle(0,0,100,20);
scannedImage.copyTo(textRegion);
ocr.recognize(textRegion); 

【讨论】:

呵呵,如果 tesseract 不接受区域,那是我的后备计划 :)

以上是关于正方体:指定文本区域的主要内容,如果未能解决你的问题,请参考以下文章

怎样在netbeans中给文本区域加图片背景

xd区域文本在哪

不允许在 Flex 中编辑 textarea 中的特定区域

使用 Javascript (jQuery) 遍历所有文本区域

保存文本区域条目的本地副本

实现可调整大小的文本区域?