如何使用图像的 tesseract 输出从另一个图像创建可搜索的 pdf

Posted 2023-04-17

技术标签:

【中文标题】如何使用图像的 tesseract 输出从另一个图像创建可搜索的 pdf【英文标题】：How to use tesseract output from an image to create searchable pdf from another image 【发布时间】：2021-12-22 08:30:54 【问题描述】：

我有一个 png 图像，我改进了它以获得更好的 tesseract OCR 质量，然后我需要从原始图像制作一个可搜索的 pdf。

我可以使用这个 python 代码从改进的图像中创建一个可搜索的 pdf：

f = open("programme.pdf", "w+b")
file = sys.argv[1]

black_and_white = create_black_and_white(image=file, threshold=150) # function converting the image to black and white with some filtering
pdf = pytesseract.image_to_pdf_or_hocr(black_and_white, config=custom_tesseract_config, extension='pdf')
f.write(bytearray(pdf))

f.close()

但是，我想要的不是使用我创建的黑白图像创建 PDF，而是使用该黑白图像的 tesseract 输出并将结果添加到原始图像中，并将其变成可搜索的 pdf .我该怎么做？

【问题讨论】：

【参考方案1】：

这是一个愚蠢的问题，我只是表明我没有仔细考虑我想要完成的事情。

我通过简单地将问题中的代码生成的结果 b&w pdf 作为背景添加到从原始文件创建的 pdf 中来解决了这个问题。为此，我使用了pdftk 实用程序。

【讨论】：

以上是关于如何使用图像的 tesseract 输出从另一个图像创建可搜索的 pdf的主要内容，如果未能解决你的问题，请参考以下文章