在 Tesseract 中保留空间

Posted

技术标签:

【中文标题】在 Tesseract 中保留空间【英文标题】:Preserving Spaces in Tesseract 【发布时间】:2019-01-11 02:15:37 【问题描述】:

我有一个图像文件,其中包含一些由制表符(2 个空格)分隔的文本。但是当我从这个图像文件中提取文本时,我总是在两列之间得到一个空格。一个示例:

图片:

col-a    col-b    col-c

期望的输出:

col-a    col-b    col-c

但我得到以下信息:

col-a col-b col-c

我正在使用 pytesseract.image_to_string(Python 模块)将图像转换为文本

【问题讨论】:

【参考方案1】:

像这样使用它:

pytesseract.image_to_string(img, config='-c preserve_interword_spaces=1')

【讨论】:

我试过了,但在这两种情况下都得到了相同的输出 - preserve_interword_spaces=1 和 preserve_interword_spaces=0 preserve_interword_spaces=1 在 tesseract 4 中不再可用。可能稍后会修复。 大家好,这个问题解决了吗? 此问题已修复。见github.com/tesseract-ocr/tesseract/issues/781 tesseract和pytesseract有什么区别?当我下载 pytesseract 时,最新版本是 0.3.7。当我下载 tesseract 时,最新版本是 0.1.3。在 github 他们说有一个版本 4。我如何获得版本 4 以及如何让 python 使用它?

以上是关于在 Tesseract 中保留空间的主要内容,如果未能解决你的问题,请参考以下文章

在 TXMLDocument 中保留空格时出现 Delphi 异常

如何在 textarea 表单帖子中保留空格和格式? [复制]

通过 ruamel.yaml 转储时如何在 yaml 文件中保留空值

使用 BeautifulSoup 写入文件时在 Django 模板中保留空格

Spring-Boot Config:如何在用于填充 Map<String, String> 的 yaml 键中保留空格

遇到问题训练 tesseract