如何使用图像的 tesseract 输出从另一个图像创建可搜索的 pdf
Posted
技术标签:
【中文标题】如何使用图像的 tesseract 输出从另一个图像创建可搜索的 pdf【英文标题】:How to use tesseract output from an image to create searchable pdf from another image 【发布时间】:2021-12-22 08:30:54 【问题描述】:我有一个 png 图像,我改进了它以获得更好的 tesseract OCR 质量,然后我需要从原始图像制作一个可搜索的 pdf。
我可以使用这个 python 代码从改进的图像中创建一个可搜索的 pdf:
f = open("programme.pdf", "w+b")
file = sys.argv[1]
black_and_white = create_black_and_white(image=file, threshold=150) # function converting the image to black and white with some filtering
pdf = pytesseract.image_to_pdf_or_hocr(black_and_white, config=custom_tesseract_config, extension='pdf')
f.write(bytearray(pdf))
f.close()
但是,我想要的不是使用我创建的黑白图像创建 PDF,而是使用该黑白图像的 tesseract 输出并将结果添加到原始图像中,并将其变成可搜索的 pdf .我该怎么做?
【问题讨论】:
【参考方案1】:这是一个愚蠢的问题,我只是表明我没有仔细考虑我想要完成的事情。
我通过简单地将问题中的代码生成的结果 b&w pdf 作为背景添加到从原始文件创建的 pdf 中来解决了这个问题。为此,我使用了pdftk
实用程序。
【讨论】:
以上是关于如何使用图像的 tesseract 输出从另一个图像创建可搜索的 pdf的主要内容,如果未能解决你的问题,请参考以下文章
Tesseract 输出从非常清晰的图像中更改、添加和删除数字