读取原始内容的pdf文件
Posted
技术标签:
【中文标题】读取原始内容的pdf文件【英文标题】:read pdf file with original contents 【发布时间】:2010-05-21 09:35:30 【问题描述】:我想阅读带有原始内容的 pdf 文件,例如它的字体(可能某些字体很小,而某些字体很大)以及段落和表格(如果是)。
这怎么可能。
请帮忙。
【问题讨论】:
【参考方案1】:您需要一个库,例如 jPod,它可以将 PDF 文档解析回生成它们的结构。 PDF 规范非常复杂,但如果您只想抓取文本并可能需要一两个字体大小,那应该不难做到。
【讨论】:
您好,是否可以读取带有原始内容的 doc 文件......例如段落和字体大小、字体颜色和表格??? 除非 PDF 是作为结构化内容创建的,否则它不在文件中 - 需要猜测。我写了一篇博客文章,在pdf.jpedal.org/java-pdf-blog/bid/12670/PDF-text 上解释了 PDF 中的内容以上是关于读取原始内容的pdf文件的主要内容,如果未能解决你的问题,请参考以下文章