PDFBox 解析PDF文件-解析服务器文件
Posted new海
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PDFBox 解析PDF文件-解析服务器文件相关的知识,希望对你有一定的参考价值。
1.首先引进pom
<!-- PDF读取依赖 -->
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.4</version>
</dependency>
2.controller层直接代码
/**
* PDF解析
* @return
*/
@PostMapping("/getPdf")
public StringBuffer getPdf(@RequestBody JSONObject jsonObject) throws IOException {
StringBuffer stringBuffer = null;
//获取服务器地址
ImportParams params = new ImportParams();
params.setSaveUrl("/file");
String filePath = jsonObject.getString("filePath");
filePath = fileServer + "/" + filePath;
URL url = new URL(filePath);
URLConnection connection = url.openConnection();
InputStream inputStream = connection.getInputStream();
try {
PDDocument document;
PDFParser parser = new PDFParser(new RandomAccessBuffer(inputStream));
parser.parse();
document = parser.getPDDocument();
document.getClass();
if(!document.isEncrypted()) {
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition(true);
PDFTextStripper textStripper = new PDFTextStripper();
String exposeContent = textStripper.getText(document);
String[] content = exposeContent.split("\n");
stringBuffer = new StringBuffer();
for(String line:content) {
stringBuffer.append(line);
}
}
} catch (Exception e) {
e.printStackTrace();
}
return stringBuffer;
}
以上是关于PDFBox 解析PDF文件-解析服务器文件的主要内容,如果未能解决你的问题,请参考以下文章