如何从PDF文档中提取文本？ [关闭]

Posted 2023-02-24

技术标签:

【中文标题】如何从PDF文档中提取文本？ [关闭]【英文标题】：How to extract text from the PDF document? [closed] 【发布时间】：2011-10-23 09:57:22 【问题描述】：

如何从PDF文档中提取文本使用php？

（我不能使用其他工具，我没有root权限）

我发现一些函数适用于纯文本，但它们不能很好地处理 Unicode 字符：

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

【问题讨论】：

链接无效！请纠正！不明白为什么这个问题被认为是题外话，因为它非常有用，即使它可能会吸引“有意见”的答案，但看到不同的观点总是更好。也有很多热门。 【参考方案1】：

下载class.pdf2text.php@https://pastebin.com/dvwySU1a或http://www.phpclasses.org/browse/file/31030.html（需要注册）

代码：

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf'); 
$a->decodePDF();
echo $a->output();

class.pdf2text.phpProject Home

pdf2textclass 不适用于我测试过的所有 PDF，如果它不适合您，请尝试 PDF Parser

【讨论】：

如果这里是 pdf 文件中的任何表格，那么它不会显示它。我想提取它在 pdf 中显示的同时还附带 pdf 的扫描图像的文本。有什么解决办法吗？？非常感谢...该课程非常有用。在这我只想要一个来自pdf的网址。有什么办法可以找到...？该类包括一个输出缓冲区刷新，它可能导致“标头已发送”错误。如果您禁用它（对于任何合理大小的文档），似乎没有不良影响。是的，课程并不适合所有人。您还有什么建议吗？你可以试试pdfparser.org。【参考方案2】：

我知道这个话题已经很老了，但这种需求仍然存在。我阅读了许多文档、论坛和脚本，并构建了一个支持压缩和未压缩 pdf 的新高级文档：

https://gist.github.com/smalot/6183152

希望对大家有帮助

【讨论】：

您的脚本似乎没有得到输出。你有可以测试的 PDF 吗？这对我有用！谢谢我在这里找到了一个不错的：github.com/christian-vigh-phpclasses/PdfToText 你也可以使用这个 PHP 库：pdfparser.org 对作曲家有问题的人我已经在这里github.com/vikicoder007/pdftotextgithub.com/vikicoder007/pdftotext 的 zip 文件中上传了完美的工作版本

以上是关于如何从PDF文档中提取文本？ [关闭]的主要内容，如果未能解决你的问题，请参考以下文章

如何在 C# 中以编程方式搜索 PDF 文档 [关闭]

从研究论文的 PDF 中提取信息 [关闭]

怎提取pdf中的图片？ java代码！望高手解决！谢

如果识别 PDF 文档中的文本结构如此困难，那么 PDF 阅读器是如何做到如此出色的呢？

在python中使用PDFMiner从PDF文件中提取文本？

用python操作PDF文件