如何从PDF文档中提取文本? [关闭]
Posted
技术标签:
【中文标题】如何从PDF文档中提取文本? [关闭]【英文标题】:How to extract text from the PDF document? [closed] 【发布时间】:2011-10-23 09:57:22 【问题描述】:如何从PDF文档中提取文本使用php?
(我不能使用其他工具,我没有root权限)
我发现一些函数适用于纯文本,但它们不能很好地处理 Unicode 字符:
http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html
【问题讨论】:
链接无效!请纠正! 不明白为什么这个问题被认为是题外话,因为它非常有用,即使它可能会吸引“有意见”的答案,但看到不同的观点总是更好。也有很多热门。 【参考方案1】:下载class.pdf2text.php@https://pastebin.com/dvwySU1a或http://www.phpclasses.org/browse/file/31030.html(需要注册)
代码:
include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf');
$a->decodePDF();
echo $a->output();
class.pdf2text.php
Project Home
pdf2textclass
不适用于我测试过的所有 PDF,如果它不适合您,请尝试 PDF Parser
【讨论】:
如果这里是 pdf 文件中的任何表格,那么它不会显示它。我想提取它在 pdf 中显示的同时还附带 pdf 的扫描图像的文本。有什么解决办法吗?? 非常感谢...该课程非常有用。在这我只想要一个来自pdf的网址。有什么办法可以找到...? 该类包括一个输出缓冲区刷新,它可能导致“标头已发送”错误。如果您禁用它(对于任何合理大小的文档),似乎没有不良影响。 是的,课程并不适合所有人。您还有什么建议吗? 你可以试试pdfparser.org。【参考方案2】:我知道这个话题已经很老了,但这种需求仍然存在。 我阅读了许多文档、论坛和脚本,并构建了一个支持压缩和未压缩 pdf 的新高级文档:
https://gist.github.com/smalot/6183152
希望对大家有帮助
【讨论】:
您的脚本似乎没有得到输出。你有可以测试的 PDF 吗? 这对我有用!谢谢 我在这里找到了一个不错的:github.com/christian-vigh-phpclasses/PdfToText 你也可以使用这个 PHP 库:pdfparser.org 对作曲家有问题的人我已经在这里github.com/vikicoder007/pdftotextgithub.com/vikicoder007/pdftotext 的 zip 文件中上传了完美的工作版本以上是关于如何从PDF文档中提取文本? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章
如果识别 PDF 文档中的文本结构如此困难,那么 PDF 阅读器是如何做到如此出色的呢?