PDF 数据提取给出符号/乱码?
Posted
技术标签:
【中文标题】PDF 数据提取给出符号/乱码?【英文标题】:PDF data extraction gives symbols/gibberish? 【发布时间】:2011-12-23 18:37:45 【问题描述】:我有一个名为 PDF2XL 的软件,它通常非常适合从 PDF 文件中提取数据表。我以前用它处理过数百个文件。
这个文件给了我乱码输出,我什至无法正确复制并粘贴到这个文本区域。各种 unicode 怪事。
如果我照常复制并粘贴到 excel/记事本中,我会遇到同样的问题。
我认为这与 PDF 文件中混乱的字符编码标题有关?我怎样才能改变这个?我在 Windows 上,没有可以编辑 PDF 的软件,所以如果我需要编辑/重新保存它,请推荐一个免费的 SW 来完成。
谢谢!
【问题讨论】:
您能分享文件的链接吗?我会尝试找出可能是什么问题。 【参考方案1】:越来越多的 PDF 文件使用子集字体,这基本上是一种自定义编码。通常,PDF 中的字体描述符应该有一个 ToUnicode 表,以允许文本提取对字体编码进行解码并返回正确的文本。
一些 PDF 制作者故意这样做是为了防止对财务报告等内容轻松提取 PDF 文本。如果只有一种字体,那么您可以手动解码字体,但根据我的经验,我看到 PDF 具有多种随机编码,这使得几乎不可能自动解码。
测试这些类型的 PDF 的一种方法是在 Acrobat 中打开文件,选择一些文本,复制它,然后将其粘贴到记事本中。如果文本出现乱码,则 PDF 使用的是子集字体,您无能为力。如果 Acrobat 无法正确提取文本,那么其他任何方法都不能。它也可能是一页象形文字。
【讨论】:
刚刚又遇到这个问题了。谷歌搜索,最热门的是我自己的 SO 问题。我认为解决方案是截屏并通过 OCR 软件运行它... 如果您的 OCR 结果通过屏幕截图不够准确,您也可以将 PDF 页面渲染为图像文件。 安德鲁你是怎么做到的?在这种情况下,他们是,但很高兴知道,也可能更容易。谢谢以上是关于PDF 数据提取给出符号/乱码?的主要内容,如果未能解决你的问题,请参考以下文章
C# 数据库提取值包含特殊符号例如反斜杠,逗号。如何去除这些特殊符号?