读取pdf中的内容

Posted xianz666

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了读取pdf中的内容相关的知识,希望对你有一定的参考价值。

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;

public class Extract_Text {

       public static void main(String[] args) {
             
           //创建PdfDocument实例
           PdfDocument doc= new PdfDocument();

           //加载PDF文件
           doc.loadFromFile("test.pdf");       

           StringBuilder sb= new StringBuilder();       

           PdfPageBase page;
       
           //遍历PDF页面,获取文本
           for(int i=0;i<doc.getPages().getCount();i++){
               page=doc.getPages().get(i);
               sb.append(page.extractText(true));
           }

           FileWriter writer;

           try {
               //将文本写入文本文件
               writer = new FileWriter("ExtractText.txt");
               writer.write(sb.toString());
               writer.flush();
           } catch (IOException e) {
              e.printStackTrace();
}

doc.close();       
}

以上是关于读取pdf中的内容的主要内容,如果未能解决你的问题,请参考以下文章

怎么用java读取pdf文件内容

如何用java读取pdf文档的部分内容

Android开发笔记(一百四十一)读取PPT和PDF文件

从 Zip 文件中的文件中读取内容

如何使用 swift xcuitest 从 pdf 文件中读取数据

iTextSharp PDF 使用 C# 读取突出显示的文本(突出显示注释)