比较由 PDF 页面制作的 Tif 文件

Posted

技术标签:

【中文标题】比较由 PDF 页面制作的 Tif 文件【英文标题】:Compare Tif File Made from PDF pages 【发布时间】:2020-05-16 22:33:31 【问题描述】:

我有一个大约 500 页的 PDF 文件,其中有很多重复项。 在我制作 PNG 缩略图之前,我制作了 MD5 哈希来比较所有内容。那工作得很好。 现在我不再使用 png 缩略图,而是使用 tif 文件,因为我必须使用“tiffsep”来删除一些专色。 如果我比较 tif 文件的哈希值,甚至是我从 tif 文件制作的 png 文件的哈希值,它完全不同,即使它在视觉上是相同的。

我试图从 tiff 元数据中删除日期时间字段和分页信息,但它仍然是一样的。

我能做什么? 这就是如何生成缩略图的代码 inputpdf = PdfFileReader(path) count_pages = inputpdf.getNumPages() command = "gs -sDEVICE=tiffsep -dNoSeparationFiles -dLastPage="+str(count_pages)+" -sOutputFile="/home..../page_%d.tif" subprocess.Popen(command,shell=True,stdin....)

【问题讨论】:

【参考方案1】:

确实解决了问题。

首先我制作了 Tiff 文件以排除专色。 然后我必须转换为 JPG,然后构建散列。 来自 Tiff 的 PNG 的哈希值不一样。

【讨论】:

以上是关于比较由 PDF 页面制作的 Tif 文件的主要内容,如果未能解决你的问题,请参考以下文章

怎样把TIF转化为JPG图片格式

如何 Tesseract 多个 .tif 文件?

将PDF文件中的表格转换成Excel怎么转换

PPT转换PDF格式怎么转换?后悔现在才知道

PDF怎么裁剪页面,PDF裁剪页面的操作步骤

如何从扫描页面的 PDF 中制作可搜索的 PDF? [关闭]