如何使用图像的 tesseract 输出从另一个图像创建可搜索的 pdf

Posted

技术标签:

【中文标题】如何使用图像的 tesseract 输出从另一个图像创建可搜索的 pdf【英文标题】:How to use tesseract output from an image to create searchable pdf from another image 【发布时间】:2021-12-22 08:30:54 【问题描述】:

我有一个 png 图像,我改进了它以获得更好的 tesseract OCR 质量,然后我需要从原始图像制作一个可搜索的 pdf。

我可以使用这个 python 代码从改进的图像中创建一个可搜索的 pdf:

f = open("programme.pdf", "w+b")
file = sys.argv[1]

black_and_white = create_black_and_white(image=file, threshold=150) # function converting the image to black and white with some filtering
pdf = pytesseract.image_to_pdf_or_hocr(black_and_white, config=custom_tesseract_config, extension='pdf')
f.write(bytearray(pdf))

f.close()

但是,我想要的不是使用我创建的黑白图像创建 PDF,而是使用该黑白图像的 tesseract 输出并将结果添加到原始图像中,并将其变成可搜索的 pdf .我该怎么做?

【问题讨论】:

【参考方案1】:

这是一个愚蠢的问题,我只是表明我没有仔细考虑我想要完成的事情。

我通过简单地将问题中的代码生成的结果 b&w pdf 作为背景添加到从原始文件创建的 pdf 中来解决了这个问题。为此,我使用了pdftk 实用程序。

【讨论】:

以上是关于如何使用图像的 tesseract 输出从另一个图像创建可搜索的 pdf的主要内容,如果未能解决你的问题,请参考以下文章

Tesseract 输出从非常清晰的图像中更改、添加和删除数字

Tesseract hOCR:如何检测倒置?

使用 OpenCV 为 Tesseract OCR 预处理七段图像

如何使用文本图像开发 ocr 应用程序 [关闭]

如何使用 Tesseract 对图像进行 OCR

如何在 tesseract 中保留文档结构