从pdf文件中提取特定数据

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从pdf文件中提取特定数据相关的知识,希望对你有一定的参考价值。

有人可以提供一些解决方案,想法或只是说明如何从pdf文件中提取某些特定数据,我使用pdfbox和PDfTextStripper提取pdf文件中的所有文本,它正常工作我可以提取所有文本,单词通过单词和逐行但我无法提取一些单词(特定字符串:例如价格,年龄)我想要提取一些我想从pdf文件中提取的所需数据。

答案

你可以使用pdfgrep它像grep一样工作,但它不是文本文件,它可以挖掘低谷并找到与pdf中给定正则表达式匹配的东西。希望这可以帮助

以上是关于从pdf文件中提取特定数据的主要内容,如果未能解决你的问题,请参考以下文章

如何从pdf中提取特定标题下的文本?

如何从Java中提取PDF文件中的表格数据

求助!批量识别PDF中特定字段,并用该字段重新命名该PDF文件?

从特定视图创建 PDF 文件

如何在 PHP 中将特定 PDF 附加到电子邮件中?

PDF 数据提取给出符号/乱码?