比较由 PDF 页面制作的 Tif 文件
Posted
技术标签:
【中文标题】比较由 PDF 页面制作的 Tif 文件【英文标题】:Compare Tif File Made from PDF pages 【发布时间】:2020-05-16 22:33:31 【问题描述】:我有一个大约 500 页的 PDF 文件,其中有很多重复项。 在我制作 PNG 缩略图之前,我制作了 MD5 哈希来比较所有内容。那工作得很好。 现在我不再使用 png 缩略图,而是使用 tif 文件,因为我必须使用“tiffsep”来删除一些专色。 如果我比较 tif 文件的哈希值,甚至是我从 tif 文件制作的 png 文件的哈希值,它完全不同,即使它在视觉上是相同的。
我试图从 tiff 元数据中删除日期时间字段和分页信息,但它仍然是一样的。
我能做什么?
这就是如何生成缩略图的代码
inputpdf = PdfFileReader(path)
count_pages = inputpdf.getNumPages()
command = "gs -sDEVICE=tiffsep -dNoSeparationFiles -dLastPage="+str(count_pages)+" -sOutputFile="/home..../page_%d.tif"
subprocess.Popen(command,shell=True,stdin....)
【问题讨论】:
【参考方案1】:确实解决了问题。
首先我制作了 Tiff 文件以排除专色。 然后我必须转换为 JPG,然后构建散列。 来自 Tiff 的 PNG 的哈希值不一样。
【讨论】:
以上是关于比较由 PDF 页面制作的 Tif 文件的主要内容,如果未能解决你的问题,请参考以下文章