将pdf转换为图像但放大后
Posted
技术标签:
【中文标题】将pdf转换为图像但放大后【英文标题】:converting pdf to image but after zooming in 【发布时间】:2019-08-13 18:44:31 【问题描述】:这个link 展示了如何将pdf
s 转换为图像。有没有办法在转换为图像之前缩放我的pdf
s?在我的项目中,我将pdf
s 转换为png
s,然后使用Python-tesseract
库来提取文本。我注意到,如果我缩放pdf
s,然后将部分保存为png
s,那么 OCR 会提供更好的结果。那么有没有办法在转换为png之前缩放pdf?
【问题讨论】:
您还可以从 PDF 创建高分辨率图像并将需要 OCR 的图像部分裁剪。 你能告诉我怎么做吗?我需要在整个页面上做 OCR 你能提供一些pdf例子吗? 【参考方案1】:我认为提高图像的质量(分辨率)是比放大 pdf 更好的解决方案。
使用pdf2image
,您可以很容易地做到这一点:
安装pdf2image:pip install pdf2image
然后,在 python 中,将您的 pdf 转换为高质量图像:
from pdf2image import convert_from_path
pages = convert_from_path('sample.pdf', 400) #400 is the Image quality in DPI (default 200)
pages[0].save("sample.png")
通过调整质量参数,您应该得到您想要的结果
【讨论】:
知道我们可以将 DPI 提高到多高吗?请提供文档链接。我尝试了 python 帮助,但它很有用 @user2543622 这取决于您正在处理的 pdf 文件和您的计算机内存,这里是 dpi 的***链接:en.wikipedia.org/wiki/Dots_per_inch以上是关于将pdf转换为图像但放大后的主要内容,如果未能解决你的问题,请参考以下文章
使用 iTextSharp 将图像转换为 PDF 保留剪切路径