读取原始内容的pdf文件

Posted

技术标签:

【中文标题】读取原始内容的pdf文件【英文标题】:read pdf file with original contents 【发布时间】:2010-05-21 09:35:30 【问题描述】:

我想阅读带有原始内容的 pdf 文件,例如它的字体(可能某些字体很小,而某些字体很大)以及段落和表格(如果是)。

这怎么可能。

请帮忙。

【问题讨论】:

【参考方案1】:

您需要一个库,例如 jPod,它可以将 PDF 文档解析回生成它们的结构。 PDF 规范非常复杂,但如果您只想抓取文本并可能需要一两个字体大小,那应该不难做到。

【讨论】:

您好,是否可以读取带有原始内容的 doc 文件......例如段落和字体大小、字体颜色和表格??? 除非 PDF 是作为结构化内容创建的,否则它不在文件中 - 需要猜测。我写了一篇博客文章,在pdf.jpedal.org/java-pdf-blog/bid/12670/PDF-text 上解释了 PDF 中的内容

以上是关于读取原始内容的pdf文件的主要内容,如果未能解决你的问题,请参考以下文章

怎么用java读取pdf文件内容

java读取pdf内容

java操作office和pdf文件java读取word,excel和pdf文档内容

java 如何读取PDF文件内容

深入学习python解析并读取PDF文件内容的方法

如何使用 swift xcuitest 从 pdf 文件中读取数据