在 Tesseract 中保留空间
Posted
技术标签:
【中文标题】在 Tesseract 中保留空间【英文标题】:Preserving Spaces in Tesseract 【发布时间】:2019-01-11 02:15:37 【问题描述】:我有一个图像文件,其中包含一些由制表符(2 个空格)分隔的文本。但是当我从这个图像文件中提取文本时,我总是在两列之间得到一个空格。一个示例:
图片:
col-a col-b col-c
期望的输出:
col-a col-b col-c
但我得到以下信息:
col-a col-b col-c
我正在使用 pytesseract.image_to_string(Python 模块)将图像转换为文本
【问题讨论】:
【参考方案1】:像这样使用它:
pytesseract.image_to_string(img, config='-c preserve_interword_spaces=1')
【讨论】:
我试过了,但在这两种情况下都得到了相同的输出 - preserve_interword_spaces=1 和 preserve_interword_spaces=0preserve_interword_spaces=1
在 tesseract 4 中不再可用。可能稍后会修复。
大家好,这个问题解决了吗?
此问题已修复。见github.com/tesseract-ocr/tesseract/issues/781
tesseract和pytesseract有什么区别?当我下载 pytesseract 时,最新版本是 0.3.7。当我下载 tesseract 时,最新版本是 0.1.3。在 github 他们说有一个版本 4。我如何获得版本 4 以及如何让 python 使用它?以上是关于在 Tesseract 中保留空间的主要内容,如果未能解决你的问题,请参考以下文章
在 TXMLDocument 中保留空格时出现 Delphi 异常
如何在 textarea 表单帖子中保留空格和格式? [复制]
通过 ruamel.yaml 转储时如何在 yaml 文件中保留空值
使用 BeautifulSoup 写入文件时在 Django 模板中保留空格
Spring-Boot Config:如何在用于填充 Map<String, String> 的 yaml 键中保留空格