如何从PDF文档中提取文本? [关闭]

Posted

技术标签:

【中文标题】如何从PDF文档中提取文本? [关闭]【英文标题】:How to extract text from the PDF document? [closed] 【发布时间】:2011-10-23 09:57:22 【问题描述】:

如何从PDF文档中提取文本使用php

(我不能使用其他工具,我没有root权限)

我发现一些函数适用于纯文本,但它们不能很好地处理 Unicode 字符:

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

【问题讨论】:

链接无效!请纠正! 不明白为什么这个问题被认为是题外话,因为它非常有用,即使它可能会吸引“有意见”的答案,但看到不同的观点总是更好。也有很多热门。 【参考方案1】:

下载class.pdf2text.php@https://pastebin.com/dvwySU1a或http://www.phpclasses.org/browse/file/31030.html(需要注册)

代码:

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf'); 
$a->decodePDF();
echo $a->output(); 

class.pdf2text.phpProject Home

pdf2textclass 不适用于我测试过的所有 PDF,如果它不适合您,请尝试 PDF Parser


【讨论】:

如果这里是 pdf 文件中的任何表格,那么它不会显示它。我想提取它在 pdf 中显示的同时还附带 pdf 的扫描图像的文本。有什么解决办法吗?? 非常感谢...该课程非常有用。在这我只想要一个来自pdf的网址。有什么办法可以找到...? 该类包括一个输出缓冲区刷新,它可能导致“标头已发送”错误。如果您禁用它(对于任何合理大小的文档),似乎没有不良影响。 是的,课程并不适合所有人。您还有什么建议吗? 你可以试试pdfparser.org。【参考方案2】:

我知道这个话题已经很老了,但这种需求仍然存在。 我阅读了许多文档、论坛和脚本,并构建了一个支持压缩和未压缩 pdf 的新高级文档:

https://gist.github.com/smalot/6183152

希望对大家有帮助

【讨论】:

您的脚本似乎没有得到输出。你有可以测试的 PDF 吗? 这对我有用!谢谢 我在这里找到了一个不错的:github.com/christian-vigh-phpclasses/PdfToText 你也可以使用这个 PHP 库:pdfparser.org 对作曲家有问题的人我已经在这里github.com/vikicoder007/pdftotextgithub.com/vikicoder007/pdftotext 的 zip 文件中上传了完美的工作版本

以上是关于如何从PDF文档中提取文本? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

如何在 C# 中以编程方式搜索 PDF 文档 [关闭]

从研究论文的 PDF 中提取信息 [关闭]

怎提取pdf中的图片? java代码! 望高手解决!谢

如果识别 PDF 文档中的文本结构如此困难,那么 PDF 阅读器是如何做到如此出色的呢?

在python中使用PDFMiner从PDF文件中提取文本?

用python操作PDF文件