PDF 数据提取给出符号/乱码？

Posted 2023-02-15

技术标签:

【中文标题】PDF 数据提取给出符号/乱码？【英文标题】：PDF data extraction gives symbols/gibberish? 【发布时间】：2011-12-23 18:37:45 【问题描述】：

我有一个名为 PDF2XL 的软件，它通常非常适合从 PDF 文件中提取数据表。我以前用它处理过数百个文件。

这个文件给了我乱码输出，我什至无法正确复制并粘贴到这个文本区域。各种 unicode 怪事。

如果我照常复制并粘贴到 excel/记事本中，我会遇到同样的问题。

我认为这与 PDF 文件中混乱的字符编码标题有关？我怎样才能改变这个？我在 Windows 上，没有可以编辑 PDF 的软件，所以如果我需要编辑/重新保存它，请推荐一个免费的 SW 来完成。

谢谢！

【问题讨论】：

您能分享文件的链接吗？我会尝试找出可能是什么问题。 【参考方案1】：

越来越多的 PDF 文件使用子集字体，这基本上是一种自定义编码。通常，PDF 中的字体描述符应该有一个 ToUnicode 表，以允许文本提取对字体编码进行解码并返回正确的文本。

一些 PDF 制作者故意这样做是为了防止对财务报告等内容轻松提取 PDF 文本。如果只有一种字体，那么您可以手动解码字体，但根据我的经验，我看到 PDF 具有多种随机编码，这使得几乎不可能自动解码。

测试这些类型的 PDF 的一种方法是在 Acrobat 中打开文件，选择一些文本，复制它，然后将其粘贴到记事本中。如果文本出现乱码，则 PDF 使用的是子集字体，您无能为力。如果 Acrobat 无法正确提取文本，那么其他任何方法都不能。它也可能是一页象形文字。

【讨论】：

刚刚又遇到这个问题了。谷歌搜索，最热门的是我自己的 SO 问题。我认为解决方案是截屏并通过 OCR 软件运行它... 如果您的 OCR 结果通过屏幕截图不够准确，您也可以将 PDF 页面渲染为图像文件。安德鲁你是怎么做到的？在这种情况下，他们是，但很高兴知道，也可能更容易。谢谢

以上是关于PDF 数据提取给出符号/乱码？的主要内容，如果未能解决你的问题，请参考以下文章