PDFBox 解析PDF文件-解析服务器文件

Posted new海

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PDFBox 解析PDF文件-解析服务器文件相关的知识,希望对你有一定的参考价值。

1.首先引进pom

<!-- PDF读取依赖 -->
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.4</version>
</dependency>

 

2.controller层直接代码

/**
* PDF解析
* @return
*/
@PostMapping("/getPdf")
public StringBuffer getPdf(@RequestBody JSONObject jsonObject) throws IOException {
StringBuffer stringBuffer = null;

//获取服务器地址
ImportParams params = new ImportParams();
params.setSaveUrl("/file");
String filePath = jsonObject.getString("filePath");
filePath = fileServer + "/" + filePath;
URL url = new URL(filePath);
URLConnection connection = url.openConnection();
InputStream inputStream = connection.getInputStream();
try {
PDDocument document;
PDFParser parser = new PDFParser(new RandomAccessBuffer(inputStream));
parser.parse();
document = parser.getPDDocument();
document.getClass();
if(!document.isEncrypted()) {
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition(true);
PDFTextStripper textStripper = new PDFTextStripper();
String exposeContent = textStripper.getText(document);
String[] content = exposeContent.split("\n");
stringBuffer = new StringBuffer();
for(String line:content) {
stringBuffer.append(line);
}
}

} catch (Exception e) {
e.printStackTrace();

}
return stringBuffer;
}

以上是关于PDFBox 解析PDF文件-解析服务器文件的主要内容,如果未能解决你的问题,请参考以下文章

Java 使用PDFBox提取PDF文件中的图片

java中使用pdfbox对pdf文件进行操作时,如何实现插入文本的自动换行操作?

java读取pdf内容

Delphi提取PDF文本

Mapreduce Hadoop 的 PDF 输入格式

PDFBOX 生成非常大的 PDF/A 文件