将pdf转换为图像但放大后

Posted

技术标签:

【中文标题】将pdf转换为图像但放大后【英文标题】:converting pdf to image but after zooming in 【发布时间】:2019-08-13 18:44:31 【问题描述】:

这个link 展示了如何将pdfs 转换为图像。有没有办法在转换为图像之前缩放我的pdfs?在我的项目中,我将pdfs 转换为pngs,然后使用Python-tesseract 库来提取文本。我注意到,如果我缩放pdfs,然后将部分保存为pngs,那么 OCR 会提供更好的结果。那么有没有办法在转换为png之前缩放pdf?

【问题讨论】:

您还可以从 PDF 创建高分辨率图像并将需要 OCR 的图像部分裁剪。 你能告诉我怎么做吗?我需要在整个页面上做 OCR 你能提供一些pdf例子吗? 【参考方案1】:

我认为提高图像的质量(分辨率)是比放大 pdf 更好的解决方案。

使用pdf2image,您可以很容易地做到这一点:

安装pdf2image:pip install pdf2image

然后,在 python 中,将您的 pdf 转换为高质量图像:

from pdf2image import convert_from_path

pages = convert_from_path('sample.pdf', 400) #400 is the Image quality in DPI (default 200)

pages[0].save("sample.png")

通过调整质量参数,您应该得到您想要的结果

【讨论】:

知道我们可以将 DPI 提高到多高吗?请提供文档链接。我尝试了 python 帮助,但它很有用 @user2543622 这取决于您正在处理的 pdf 文件和您的计算机内存,这里是 dpi 的***链接:en.wikipedia.org/wiki/Dots_per_inch

以上是关于将pdf转换为图像但放大后的主要内容,如果未能解决你的问题,请参考以下文章

将图像转换为可搜索的 pdf [关闭]

将图像类型 PDF 转换为启用 OCR 的 PDF

如何将html模板(带图像)转换为pdf?

使用 iTextSharp 将图像转换为 PDF 保留剪切路径

将PDF转换为图像后如何获得可读文本(具有抗锯齿的文本)? [关闭]

ImageMagick:将图像转换为 A4 页面大小的 PDF,图像适合页面