java读取pdf内容
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了java读取pdf内容相关的知识,希望对你有一定的参考价值。
我想通过java来读取pdf内容,然后把读取到的内容存到表里。我以前用过iText插件,但是现在手头没有现成代码,早就忘记了。请帮忙给我一个读取pdf的代码,还有个问题就是,如果pdf中有表格,该怎么保存这个内容呢?帮忙写个Demo给我吧(把第三方jar放里面)
参考技术A 用Java简单的读取pdf文件中的数据:第一步:下载PDFBox-0.7.2.jar。提供一个下载地址:http://pdfhome.hope.com.cn/Resource.aspx?CID=63844604-5253-4ae1-b023-258c9e324061&RID=20cd8f94-1cee-40b6-a3df-0ef024f8e0d2解压后,把lib文件下的PDFBox-0.7.2.jar,PDFBox-0.7.2-log4j.jar放到你classpath路径下。(我把源码以及jar包都放到下面的附件里,方面你的使用。)
第二步:写个简单的读取pdf文件的程序。(PdfReader.java)
import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.net.MalformedURLException;
import java.net.URL;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;
public class PdfReader
public void readFdf(String file) throws Exception
// 是否排序
boolean sort = false;
// pdf文件名
String pdfFile = file;
// 输入文本文件名称
String textFile = null;
// 编码方式
String encoding = "UTF-8";
// 开始提取页数
int startPage = 1;
// 结束提取页数
int endPage = Integer.MAX_VALUE;
// 文件输入流,生成文本文件
Writer output = null;
// 内存中存储的PDF Document
PDDocument document = null;
try
try
// 首先当作一个URL来装载文件,如果得到异常再从本地文件系统//去装载文件
URL url = new URL(pdfFile);
//注意参数已不是以前版本中的URL.而是File。
document = PDDocument.load(pdfFile);
// 获取PDF的文件名
String fileName = url.getFile();
// 以原来PDF的名称来命名新产生的txt文件
if (fileName.length() > 4)
File outputFile = new File(fileName.substring(0, fileName
.length() - 4)
+ ".txt");
textFile = outputFile.getName();
catch (MalformedURLException e)
// 如果作为URL装载得到异常则从文件系统装载
//注意参数已不是以前版本中的URL.而是File。
document = PDDocument.load(pdfFile);
if (pdfFile.length() > 4)
textFile = pdfFile.substring(0, pdfFile.length() - 4)
+ ".txt";
// 文件输入流,写入文件倒textFile
output = new OutputStreamWriter(new FileOutputStream(textFile),
encoding);
// PDFTextStripper来提取文本
PDFTextStripper stripper = null;
stripper = new PDFTextStripper();
// 设置是否排序
stripper.setSortByPosition(sort);
// 设置起始页
stripper.setStartPage(startPage);
// 设置结束页
stripper.setEndPage(endPage);
// 调用PDFTextStripper的writeText提取并输出文本
stripper.writeText(document, output);
finally
if (output != null)
// 关闭输出流
output.close();
if (document != null)
// 关闭PDF Document
document.close();
/**
* @param args
*/
public static void main(String[] args)
// TODO Auto-generated method stub
PdfReader pdfReader = new PdfReader();
try
// 取得E盘下的SpringGuide.pdf的内容
pdfReader.readFdf("E:\\SpringGuide.pdf");
catch (Exception e)
e.printStackTrace();
这样就简单的完成了从pdf中读取数据了。在你的pdf文件所在的目录下生成一个同名的txt文件。追问
附件在哪?那个下载地址是无效的
参考技术BJava读取PDF文件:
下载Spire.Pdf for Java,导入jar。(也可以从maven仓库安装)
读取PDF文件中的文本内容:
import com.spire.pdf.PdfPageBase;
import java.io.*;
public class Extract_Text
public static void main(String[] args)
//创建PdfDocument实例
PdfDocument doc= new PdfDocument();
//加载PDF文件
doc.loadFromFile("test.pdf");
StringBuilder sb= new StringBuilder();
PdfPageBase page;
//遍历PDF页面,获取文本
for(int i=0;i<doc.getPages().getCount();i++)
page=doc.getPages().get(i);
sb.append(page.extractText(true));
FileWriter writer;
try
//将文本写入文本文件
writer = new FileWriter("ExtractText.txt");
writer.write(sb.toString());
writer.flush();
catch (IOException e)
e.printStackTrace();
doc.close();
读取图片也是支持的,你可以自己试一下,但是PDF中是没有表格的概念的,表格是画到页面上的,和office文件中的表格不一样,只能通过从PDF页面指定矩形范围内提取数据来实现提取表格内容
java操作office和pdf文件java读取word,excel和pdf文档内容
在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中。所以今天我们就简单来看一下Java对word、excel、pdf文件的读取。本篇博客只是讲解简单应用。如果想深入了解原理。请读者自行研究一些相关源码。
首先我们来认识一下读取相关文档的jar包:
1. 引用POI包读取word文档内容
poi.jar 下载地址
http://apache.freelamp.com/poi/release/bin/poi-bin-3.6-20091214.zip
http://apache.etoak.com/poi/release/bin/poi-bin-3.6-20091214.zip
http://labs.renren.com/apache-mirror/poi/release/bin/poi-bin-3.6-20091214.zip
2.引用jxl包读取excel文档的内容
Jxl.jar下载地址
http://nchc.dl.sourceforge.net/project/jexcelapi/CSharpJExcel/CSharpJExcel.zip
3.引用PDFBox读取pdf文档的内容
Pdfbox.jar下载地址
http://labs.renren.com/apache-mirror/pdfbox/1.1.0/pdfbox-1.1.0.jar
http://apache.etoak.com/pdfbox/1.1.0/pdfbox-1.1.0.jar
http://apache.freelamp.com/pdfbox/1.1.0/pdfbox-1.1.0.jar
Fontbox.jar下载地址
http://apache.etoak.com/pdfbox/1.1.0/fontbox-1.1.0.jar
http://labs.renren.com/apache-mirror/pdfbox/1.1.0/fontbox-1.1.0.jar
http://apache.freelamp.com/pdfbox/1.1.0/fontbox-1.1.0.jar
Jempbox.jar下载地址
http://labs.renren.com/apache-mirror/pdfbox/1.1.0/jempbox-1.1.0.jar
http://apache.etoak.com/pdfbox/1.1.0/jempbox-1.1.0.jar
http://apache.freelamp.com/pdfbox/1.1.0/jempbox-1.1.0.jar
下面我们就来简单看一下这些jar包的对文档的读取的应用实例:
1. 引用POI包读取word文档内容
- import java.io.File;
- import java.io.FileInputStream;
- import org.apache.poi.hwpf.HWPFDocument;
- import org.apache.poi.hwpf.usermodel.Range;
- /**
- *
- * @author 曹胜欢
- */
- public class DocFile{
- @Override
- public String getContent(File f) throws Exception {
- FileInputStream fis = new FileInputStream(f);
- HWPFDocument doc = new HWPFDocument(fis);
- Range rang = doc.getRange();
- String text = rang.text();
- fis.close();
- return text;
- }
2.引用jxl包读取excel文档的内容
- import java.io.File;
- import java.io.FileInputStream;
- import jxl.Cell;
- import jxl.Sheet;
- import jxl.Workbook;
- /**
- *
- * @author 曹胜欢
- */
- public class XlsFile{
- @Override
- public String getContent(File f) throws Exception {
- //构建Workbook对象, 只读Workbook对象
- //直接从本地文件创建Workbook
- //从输入流创建Workbook
- FileInputStream fis = new FileInputStream(f);
- StringBuilder sb = new StringBuilder();
- jxl.Workbook rwb = Workbook.getWorkbook(fis);
- //一旦创建了Workbook,我们就可以通过它来访问
- //Excel Sheet的数组集合(术语:工作表),
- //也可以调用getsheet方法获取指定的工资表
- Sheet[] sheet = rwb.getSheets();
- for (int i = 0; i < sheet.length; i++) {
- Sheet rs = rwb.getSheet(i);
- for (int j = 0; j < rs.getRows(); j++) {
- Cell[] cells = rs.getRow(j);
- for(int k=0;k<cells.length;k++)
- sb.append(cells[k].getContents());
- }
- }
- fis.close();
- return sb.toString();
- }
- }
由上面代码我们可知:一旦得到了Sheet,我们就可以通过它来访问Excel Cell(术语:单元格)。参考下面的代码片段:
//获取第一行,第一列的值
Cell c00 = rs.getCell(0, 0);
String strc00 = c00.getContents();
//获取第一行,第二列的值
Cell c10 = rs.getCell(1, 0);
String strc10 = c10.getContents();
当你完成对Excel电子表格数据的处理后,一定要使用close()方法来关闭先前创建的对象,以释放读取数据表的过程中所占用的内存空间,在读取大量数据时显得尤为重要。
3.引用PDFBox读取pdf文档的内容
- import java.io.File;
- import java.io.FileInputStream;
- import org.pdfbox.pdfparser.PDFParser;
- import org.pdfbox.pdmodel.PDDocument;
- import org.pdfbox.util.PDFTextStripper;
- /**
- *
- * @author 曹胜欢
- */
- <pre name="code" class="java">public class PdfFile{
- public String getContent(File f) throws Exception {
- FileInputStream fis = new FileInputStream(f);
- PDFParser p = new PDFParser(fis);
- p.parse();
- PDDocument pdd = p.getPDDocument();
- PDFTextStripper ts = new PDFTextStripper();
- String c = ts.getText(pdd);
- pdd.close();
- fis.close();
- return c;
- }
- }</pre><br>
我们简单介绍了java读取word,excel和pdf文档内容 ,但在实际开发中,我们用到最多的是把数据库中数据导出excel报表形式。不仅仅简单的读取office中的数据.尤其是在生产管理或者财务系统中用的非常普遍,因为这些系统经常要做一些报表打印的工作。而数据导出的格式一般是EXCEL或者PDF 。所以今天我们来简单看一下利用Apache POI实现数据库中数据导出excel报表。在Java中有很多实现数据导出excel报表的第三方jar包。但在比较了一下感觉还是POI相对来说比较好用。如果大家想学习其他的导出方式可以自行研究一下。
首先来了解一下 Apache POI
Apache POI 是用Java编写的免费开源的跨平台的 Java API,Apache POI提供API给Java程式对Microsoft Office格式档案读和写的功能。Apache POI 是创建和维护操作各种符合Office Open XML(OOXML)标准和微软的OLE 2复合文档格式(OLE2)的Java API。用它可以使用Java读取和创建,修改MS Excel文件.而且,还可以使用Java读取和创建MS Word和MSPowerPoint文件。Apache POI 提供Java操作Excel解决方案(适用于Excel97-2008)。 下面我们来看一下Apache POI 中提供的几大部分的作用:
HSSF - 提供读写Microsoft Excel XLS格式档案的功能。
XSSF - 提供读写Microsoft Excel OOXML XLSX格式档案的功能。
HWPF - 提供读写Microsoft Word DOC格式档案的功能。
HSLF - 提供读写Microsoft PowerPoint格式档案的功能。
HDGF - 提供读Microsoft Visio格式档案的功能。
HPBF - 提供读Microsoft Publisher格式档案的功能。
HSMF - 提供读Microsoft Outlook格式档案的功能。
本节我们所要学习的是POI对excel的操作。所以我们只需用到HSSF 这部分内容就可以了。其他的请大家自行研究吧。哈哈。
下面我们就一步一步的来看一下如何创建一个excel报表:
1. 创建新的Excel工作薄
HSSFWorkbook workbook = new HSSFWorkbook();
在Excel工作簿中建一工作表,其名为缺省值。POI中还提供了其他的一些其他的workbook 构造方法。下面我们来看一下:
2.创建一个工作表
如要新建一名为"工资表"的工作表,其语句为:
HSSFSheet sheet = workbook.createSheet("工资表");
3.创建行
在索引0的位置创建行(最顶端的行)
HSSFRow row = sheet.createRow(0);
4.创建单元格
在索引0的位置创建单元格(左上端)
HSSFCell cell = row.createCell((short) 0);
定义单元格为字符串类型,这个字符串类型也可在创建单元格里面设置。
cell.setCellType(HSSFCell.CELL_TYPE_STRING);
在单元格中输入一些内容
cell.setCellValue("增加值");
5.新建一输出文件流,把相应的Excel工作簿 输出到本地
FileOutputStream fOut = new FileOutputStream(outputFile);
workbook.write(fOut);
fOut.flush();
操作结束,关闭文件
fOut.close();
OK,在给单元格设置下从数据库中读取的数据。这样我们就可以把数据库里面的内容导入到excel了。当然这里我们只是简单的介绍了一些POI的用法。并没有细讲,比如设置单元格里面数据的格式。单元格的一些属性设置。这些将会在我下面的例子中用到。也算是给大家一些示例吧。好了。最后看一个实例吧:
EXCEL报表工具类:ExportExcel.java
- package com.bzu.search.action;
- import java.io.File;
- import java.io.FileNotFoundException;
- import java.io.FileOutputStream;
- import java.io.IOException;
- import org.apache.poi.hssf.usermodel.HSSFCell;
- import org.apache.poi.hssf.usermodel.HSSFCellStyle;
- import org.apache.poi.hssf.usermodel.HSSFFont;
- import org.apache.poi.hssf.usermodel.HSSFRichTextString;
- import org.apache.poi.hssf.usermodel.HSSFRow;
- import org.apache.poi.hssf.usermodel.HSSFSheet;
- import org.apache.poi.hssf.usermodel.HSSFWorkbook;
- import org.apache.poi.hssf.util.HSSFColor;
- import org.apache.poi.hssf.util.Region;
- /**
- * EXCEL报表工具类.
- *
- * @author caoyb
- * @version $Revision:$
- */
- public class ExportExcel {
- private HSSFWorkbook wb = null;
- private HSSFSheet sheet = null;
- /**
- * @param wb
- * @param sheet
- */
- public ExportExcel(HSSFWorkbook wb, HSSFSheet sheet) {
- super();
- this.wb = wb;
- this.sheet = sheet;
- }
- /**
- * @return the sheet
- */
- public HSSFSheet getSheet() {
- return sheet;
- }
- /**
- * @param sheet
- * the sheet to set
- */
- public void setSheet(HSSFSheet sheet) {
- this.sheet = sheet;
- }
- /**
- * @return the wb
- */
- public HSSFWorkbook getWb() {
- return wb;
- }
- /**
- * @param wb
- * the wb to set
- */
- public void setWb(HSSFWorkbook wb) {
- this.wb = wb;
- }
- /**
- * 创建通用EXCEL头部
- *
- * @param headString
- * 头部显示的字符
- * @param colSum
- * 该报表的列数
- */
- public void createNormalHead(String headString, int colSum) {
- HSSFRow row = sheet.createRow(0);
- // 设置第一行
- HSSFCell cell = row.createCell(0);
- row.setHeight((short) 400);
- // 定义单元格为字符串类型
- cell.setCellType(HSSFCell.ENCODING_UTF_16);
- cell.setCellValue(new HSSFRichTextString("南京城区各网点进件统计报表"));
- // 指定合并区域
- sheet.addMergedRegion(new Region(0, (short) 0, 0, (short) colSum));
- HSSFCellStyle cellStyle = wb.createCellStyle();
- cellStyle.setAlignment(HSSFCellStyle.ALIGN_CENTER); // 指定单元格居中对齐
- cellStyle.setVerticalAlignment(HSSFCellStyle.VERTICAL_CENTER);// 指定单元格垂直居中对齐
- cellStyle.setWrapText(true);// 指定单元格自动换行
- // 设置单元格字体
- HSSFFont font = wb.createFont();
- font.setBoldweight(HSSFFont.BOLDWEIGHT_BOLD);
- font.setFontName("宋体");
- font.setFontHeight((short) 300);
- cellStyle.setFont(font);
- cell.setCellStyle(cellStyle);
- }
- /**
- * 创建通用报表第二行
- *
- * @param params
- * 统计条件数组
- * @param colSum
- * 需要合并到的列索引
- */
- public void createNormalTwoRow(String[] params, int colSum) {
- HSSFRow row1 = sheet.createRow(1);
- row1.setHeight((short) 300);
- HSSFCell cell2 = row1.createCell(0);
- cell2.setCellType(HSSFCell.ENCODING_UTF_16);
- cell2.setCellValue(new HSSFRichTextString("统计时间:" + params[0] + "至"
- + params[1]));
- // 指定合并区域
- sheet.addMergedRegion(new Region(1, (short) 0, 1, (short) colSum));
- HSSFCellStyle cellStyle = wb.createCellStyle();
- cellStyle.setAlignment(HSSFCellStyle.ALIGN_CENTER); // 指定单元格居中对齐
- cellStyle.setVerticalAlignment(HSSFCellStyle.VERTICAL_CENTER);// 指定单元格垂直居中对齐
- cellStyle.setWrapText(true);// 指定单元格自动换行
- // 设置单元格字体
- HSSFFont font = wb.createFont();
- font.setBoldweight(HSSFFont.BOLDWEIGHT_BOLD);
- font.setFontName("宋体");
- font.setFontHeight((short) 250);
- cellStyle.setFont(font);
- cell2.setCellStyle(cellStyle);
- }
- /**
- * 设置报表标题
- *
- * @param columHeader
- * 标题字符串数组
- */
- public void createColumHeader(String[] columHeader) {
- // 设置列头
- HSSFRow row2 = sheet.createRow(2);
- // 指定行高
- row2.setHeight((short) 600);
- HSSFCellStyle cellStyle = wb.createCellStyle();
- cellStyle.setAlignment(HSSFCellStyle.ALIGN_CENTER); // 指定单元格居中对齐
- cellStyle.setVerticalAlignment(HSSFCellStyle.VERTICAL_CENTER);// 指定单元格垂直居中对齐
- cellStyle.setWrapText(true);// 指定单元格自动换行
- // 单元格字体
- HSSFFont font = wb.createFont();
- font.setBoldweight(HSSFFont.BOLDWEIGHT_BOLD);
- font.setFontName("宋体");
- font.setFontHeight((short) 250);
- cellStyle.setFont(font);
- /*
- * cellStyle.setBorderBottom(HSSFCellStyle.BORDER_THIN); // 设置单无格的边框为粗体
- * cellStyle.setBottomBorderColor(HSSFColor.BLACK.index); // 设置单元格的边框颜色.
- * cellStyle.setBorderLeft(HSSFCellStyle.BORDER_THIN);
- * cellStyle.setLeftBorderColor(HSSFColor.BLACK.index);
- * cellStyle.setBorderRight(HSSFCellStyle.BORDER_THIN);
- * cellStyle.setRightBorderColor(HSSFColor.BLACK.index);
- * cellStyle.setBorderTop(HSSFCellStyle.BORDER_THIN);
- * cellStyle.setTopBorderColor(HSSFColor.BLACK.index);
- */
- // 设置单元格背景色
- cellStyle.setFillForegroundColor(HSSFColor.GREY_25_PERCENT.index);
- cellStyle.setFillPattern(HSSFCellStyle.SOLID_FOREGROUND);
- HSSFCell cell3 = null;
- for (int i = 0; i < columHeader.length; i++) {
- cell3 = row2.createCell(i);
- cell3.setCellType(HSSFCell.ENCODING_UTF_16);
- cell3.setCellStyle(cellStyle);
- cell3.setCellValue(new HSSFRichTextString(columHeader[i]));
- }
- }
- /**
- * 创建内容单元格
- *
- * @param wb
- * HSSFWorkbook
- * @param row
- * HSSFRow
- * @param col
- * short型的列索引
- * @param align
- * 对齐方式
- * @param val
- * 列值
- */
- public void cteateCell(HSSFWorkbook wb, HSSFRow row, int col, short align,
- String val) {
- HSSFCell cell = row.createCell(col);
- cell.setCellType(HSSFCell.ENCODING_UTF_16);
- cell.setCellValue(new HSSFRichTextString(val));
- HSSFCellStyle cellstyle = wb.createCellStyle();
- cellstyle.setAlignment(align);
- cell.setCellStyle(cellstyle);
- }
- /**
- * 创建合计行
- *
- * @param colSum
- * 需要合并到的列索引
- * @param cellValue
- */
- public void createLastSumRow(int colSum, String[] cellValue) {
- HSSFCellStyle cellStyle = wb.createCellStyle();
- cellStyle.setAlignment(HSSFCellStyle.ALIGN_CENTER); // 指定单元格居中对齐
- cellStyle.setVerticalAlignment(HSSFCellStyle.VERTICAL_CENTER);// 指定单元格垂直居中对齐
- cellStyle.setWrapText(true);// 指定单元格自动换行
- // 单元格字体
- HSSFFont font = wb.createFont();
- font.setBoldweight(HSSFFont.BOLDWEIGHT_BOLD);
- font.setFontName("宋体");
- font.setFontHeight((short) 250);
- cellStyle.setFont(font);
- HSSFRow lastRow = sheet.createRow((short) (sheet.getLastRowNum() + 1));
- HSSFCell sumCell = lastRow.createCell(0);
- sumCell.setCellValue(new HSSFRichTextString("合计"));
- sumCell.setCellStyle(cellStyle);
- sheet.addMergedRegion(new Region(sheet.getLastRowNum(), (short) 0,
- sheet.getLastRowNum(), (short) colSum));// 指定合并区域
- for (int i = 2; i < (cellValue.length + 2); i++) {
- sumCell = lastRow.createCell(i);
- sumCell.setCellStyle(cellStyle);
- sumCell.setCellValue(new HSSFRichTextString(cellValue[i - 2]));
- }
- }
- /**
- * 输入EXCEL文件
- *
- * @param fileName
- * 文件名
- */
- public void outputExcel(String fileName) {
- FileOutputStream fos = null;
- try {
- fos = new FileOutputStream(new File(fileName));
- wb.write(fos);
- fos.close();
- } catch (FileNotFoundException e) {
- e.printStackTrace();
- } catch (IOException e) {
- e.printStackTrace();
- }
- }
- }
报表生成类:ComplexExportExcelClient.java
- package com.bzu.search.action;
- import java.util.ArrayList;
- import java.util.List;
- import org.apache.poi.hssf.usermodel.HSSFCell;
- import org.apache.poi.hssf.usermodel.HSSFCellStyle;
- import org.apache.poi.hssf.usermodel.HSSFFont;
- import org.apache.poi.hssf.usermodel.HSSFRichTextString;
- import org.apache.poi.hssf.usermodel.HSSFRow;
- import org.apache.poi.hssf.usermodel.HSSFSheet;
- import org.apache.poi.hssf.usermodel.HSSFWorkbook;
- import org.apache.poi.hssf.util.Region;
- /**
- * 拒绝件报表生成类.
- *
- * @author caoyb
- * @version $Revision:$
- */
- public class ComplexExportExcelClient {
- private static HSSFWorkbook wb = new HSSFWorkbook();
- private static HSSFSheet sheet = wb.createSheet();
- @SuppressWarnings({ "unchecked", "deprecation" })
- public static void main(String[] args) {
- ExportExcel exportExcel = new ExportExcel(wb, sheet);
- // 创建列标头LIST
- List fialList = new ArrayList();
- fialList.add("申请人未提供任何联系方式");
- fialList.add("无工作单位信息且未提供收入来源信息");
- fialList.add("有工作单位但未提供单位地址或电话");
- fialList.add("家庭地址缺失");
- fialList.add("客户身份证明资料缺");
- fialList.add("签名缺失或签名不符合要求");
- fialList.add("其它");
- List errorList = new ArrayList();
- errorList.add("客户主动取消");
- errorList.add("个人征信不良");
- errorList.add("欺诈申请");
- errorList.add("申请人基本条件不符");
- errorList.add("申请材料不合规");
- errorList.add("无法正常完成征信");
- errorList.add("重复申请");
- errorList.add("其他");
- // 计算该报表的列数
- int number = 2 + fialList.size() * 2 + errorList.size() * 2;
- // 给工作表列定义列宽(实际应用自己更改列数)
- for (int i = 0; i < number; i++) {
- sheet.setColumnWidth(i, 3000);
- }
- // 创建单元格样式
- HSSFCellStyle cellStyle = wb.createCellStyle();
- // 指定单元格居中对齐
- cellStyle.setAlignment(HSSFCellStyle.ALIGN_CENTER);
- // 指定单元格垂直居中对齐
- cellStyle.setVerticalAlignment(HSSFCellStyle.VERTICAL_CENTER);
- // 指定当单元格内容显示不下时自动换行
- cellStyle.setWrapText(true);
- // 设置单元格字体
- HSSFFont font = wb.createFont();
- font.setBoldweight(HSSFFont.BOLDWEIGHT_BOLD);
- font.setFontName("宋体");
- font.setFontHeight((short) 200);
- cellStyle.setFont(font);
- // 创建报表头部
- exportExcel.createNormalHead("南京地区申请资料拒件分析统计", number);
- // 设置第二行
- String[] params = new String[] { " 年 月 日", " 年 月 日" };
- exportExcel.createNormalTwoRow(params, number);
- // 设置列头
- HSSFRow row2 = sheet.createRow(2);
- HSSFCell cell0 = row2.createCell(0);
- cell0.setCellStyle(cellStyle);
- cell0.setCellValue(new HSSFRichTextString("机构代码"));
- HSSFCell cell1 = row2.createCell(1);
- cell1.setCellStyle(cellStyle);
- cell1.setCellValue(new HSSFRichTextString("支行名称"));
- HSSFCell cell2 = row2.createCell(2);
- cell2.setCellStyle(cellStyle);
- cell2.setCellValue(new HSSFRichTextString("无效件"));
- HSSFCell cell3 = row2.createCell(2 * fialList.size() + 2);
- cell3.setCellStyle(cellStyle);
- cell3.setCellValue(new HSSFRichTextString("拒绝件"));
- HSSFRow row3 = sheet.createRow(3);
- // 设置行高
- row3.setHeight((short) 800);
- HSSFCell row3Cell = null;
- int m = 0;
- int n = 0;
- // 创建不同的LIST的列标题
- for (int i = 2; i < number; i = i + 2) {
- if (i < 2 * fialList.size() + 2) {
- row3Cell = row3.createCell(i);
- row3Cell.setCellStyle(cellStyle);
- row3Cell.setCellValue(new HSSFRichTextString(fialList.get(m)
- .toString()));
- m++;
- } else {
- row3Cell = row3.createCell(i);
- row3Cell.setCellStyle(cellStyle);
- row3Cell.setCellValue(new HSSFRichTextString(errorList.get(n)
- .toString()));
- n++;
- }
- }
- // 创建最后一列的合计列
- row3Cell = row3.createCell(number);
- row3Cell.setCellStyle(cellStyle);
- row3Cell.setCellValue(new HSSFRichTextString("合计"));
- // 合并单元格
- HSSFRow row4 = sheet.createRow(4);
- // 合并第三行到第五行的第一列
- sheet.addMergedRegion(new Region(2, (short) 0, 4, (short) 0));
- // 合并第三行到第五行的第二列
- sheet.addMergedRegion(new Region(2, (short) 1, 4, (short) 1));
- // 合并第三行的第三列到第AA指定的列
- int aa = 2 * fialList.size() + 1;
- sheet.addMergedRegion(new Region(2, (short) 2, 2, (short) aa));
- int start = aa + 1;
- sheet.addMergedRegion(new Region(2, (short) start, 2,
- (short) (number - 1)));
- // 循环合并第四行的行,并且是每2列合并成一列
- for (int i = 2; i < number; i = i + 2) {
- sheet.addMergedRegion(new Region(3, (short) i, 3, (short) (i + 1)));
- }
- // 根据列数奇偶数的不同创建不同的列标题
- for (int i = 2; i < number; i++) {
- if (i < 2 * fialList.size() + 2) {
- if (i % 2 == 0) {
- HSSFCell cell = row4.createCell(i);
- cell.setCellStyle(cellStyle);
- cell.setCellValue(new HSSFRichTextString("无效量"));
- } else {
- HSSFCell cell = row4.createCell(i);
- cell.setCellStyle(cellStyle);
- cell.setCellValue(new HSSFRichTextString("占比"));
- }
- } else {
- if (i % 2 == 0) {
- HSSFCell cell = row4.createCell(i);
- cell.setCellStyle(cellStyle);
- cell.setCellValue(new HSSFRichTextString("拒绝量"));
- } else {
- HSSFCell cell = row4.createCell(i);
- cell.setCellStyle(cellStyle);
- cell.setCellValue(new HSSFRichTextString("占比"));
- }
- }
- }
- // 循环创建中间的单元格的各项的值
- for (int i = 5; i < number; i++) {
- HSSFRow row = sheet.createRow((short) i);
- for (int j = 0; j <= number; j++) {
- exportExcel
- .cteateCell(wb, row, (short) j,
- HSSFCellStyle.ALIGN_CENTER_SELECTION, String
- .valueOf(j));
- }
- }
- // 创建最后一行的合计行
- String[] cellValue = new String[number - 1];
- for (int i = 0; i < number - 1; i++) {
- cellValue[i] = String.valueOf(i);
- }
- exportExcel.createLastSumRow(1, cellValue);
- exportExcel.outputExcel("c:\\拒绝件统计.xls");
- }
- }
利用Apache开源项目POI实现数据库数据导出excel报表的知识。其实在Java世界里,有两套成熟的开源工具支持对Excel文件的操作:一个是Apache POI;另一个则是本文将要介绍的Java Excel API。Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程式对Microsoft Office格式档案读/写功能。该项目分为几个组件,其中包括一个HSSF的组件,它是一个非常正规和严谨的API。利用HSSF,你可以用纯Java代码来读取、写入、修改Excel文件 。Java Excel API(JXL),它是一套纯粹使用Java开发的Excel表格操作组件,使用它,即使在非Windows操作系统下,程序员也可以通过纯 Java 应用来创建Excel文件,并能够读取,写入,更新Excel中的内容,因此,基于JXL可以实现对数据库中数据导入导出的操作。与POI相比,JXL拥有更小的内存占用率和对中文更好的支持,所以这篇文字我们就来看一下数据库数据导入导出基于JXL的方法。顺便介绍一下jxl与POI的区别。其实从原理上,个人感觉这两种方式很相似,就连代码也挺像。下面我们就来看一下简单的操作步骤吧。
jxl下载地址:http://www.andykhan.com/jexcelapi/download.html
基本步骤:
1.创建一个工作薄
WritableWorkbook book=Workbook.createWorkbook(new File(“测试.xls”));
2.生成名为“第一页”的工作表,参数0表示这是第一页
WritableSheet sheet=book.createSheet(“第一页”,0);
3.创建单元格。在Label对象的构造方法中指明单元格位置是第一列第一行(0,0)以及单元格内容为test
Label label=new Label(0,0,”test”);
4.将定义好的单元格添加到工作表中
sheet.addCell(label);
Jxl提供了一个专门创造数字类型的单元格,生成一个保存数字的单元格必须使用Number的完整包路径,否则有语法歧义单元格位置是第二列,第一行,值为123.123*/
jxl.write.Number number=new jxl.write.Number(1,0,123.123);sheet.addCell(number);
5.写入数据并关闭文件
book.write();
book.close();
关于Excle的一些操作:
1、 字串格式化
字符串的格式化涉及到的是字体、粗细、字号等元素,这些功能主要由WritableFont和
WritableCellFormat类来负责。假设我们在生成一个含有字串的单元格时,使用如下语句,
为方便叙述,我们为每一行命令加了编号:
- WritableFont font1 =
- new WritableFont(WritableFont.TIMES, 16 ,WritableFont.BOLD); ①
- WritableCellFormat format1 = new WritableCellFormat(font1); ②
- Label label = new Label( 0 , 0 ,”data 4 test”,format1) ③
其中①指定了字串格式:字体为TIMES,字号16,加粗显示。WritableFont有非常丰富的
构造子,供不同情况下使用,jExcelAPI的java-doc中有详细列表,这里不再列出。
②处代码使用了WritableCellFormat类,这个类非常重要,通过它可以指定单元格的各种
属性,后面的单元格格式化中会有更多描述。
③处使用了Label类的构造子,指定了字串被赋予那种格式。
在WritableCellFormat类中,还有一个很重要的方法是指定数据的对齐方式,比如针对我们
上面的实例,可以指定:
// 把水平对齐方式指定为居中
format1.setAlignment(jxl.format.Alignment.CENTRE);
// 把垂直对齐方式指定为居中
format1.setVerticalAlignment(jxl.format.VerticalAlignment.CENTRE);
2、单元格操作
Excel中很重要的一部分是对单元格的操作,比如行高、列宽、单元格合并等,所幸jExcelAPI
提供了这些支持。这些操作相对比较简单,下面只介绍一下相关的API。
1)、 合并单元格
WritableSheet.mergeCells( int m, int n, int p, int q);
// 作用是从(m,n)到(p,q)的单元格全部合并,比如:
WritableSheet sheet = book.createSheet(“第一页”, 0 );
// 合并第一列第一行到第六列第一行的所有单元格
sheet.mergeCells( 0 , 0 , 5 , 0 );
合并既可以是横向的,也可以是纵向的。合并后的单元格不能再次进行合并,否则会触发异常。
2)、 行高和列宽
WritableSheet.setRowView( int i, int height);
// 作用是指定第i+1行的高度,比如:
// 将第一行的高度设为200
sheet.setRowView( 0 , 200 );
WritableSheet.setColumnView( int i, int width);
// 作用是指定第i+1列的宽度,比如:
// 将第一列的宽度设为30
sheet.setColumnView( 0 , 30 );
jxl还有其他的一些功能,比如插入图片等,这里就不再一一介绍,读者可以自己探索。
POI和jxl区别:
从JVM虚拟机内存消耗的情况.
数据量3000条数据,每条60列.JVM虚拟机内存大小64M.
使用POI:运行到2800条左右就报内存溢出.
使用JXL:3000条全部出来,并且内存还有21M的空间.
可想而知,在对内存的消耗方面差距还是挺大的.
也许是由于JXL在对资源回收利用方面做的还挺不错的.
从提供的功能的情况
JXL相对弱了点.没有提供像POI那样复杂的功能,比如添加图片功能。所以如果要实现的功能比较复杂的情况下可以考虑使用POI
最后来看一个小例子:
- import java.io.File;
- import java.io.FileOutputStream;
- import java.io.OutputStream;
- import java.sql.Connection;
- import java.sql.DriverManager;
- import java.sql.ResultSet;
- import java.sql.SQLException;
- import java.sql.Statement;
- import jxl.Workbook;
- import jxl.write.Label;
- import jxl.write.WritableCellFormat;
- import jxl.write.WritableFont;
- import jxl.write.WritableSheet;
- import jxl.write.WritableWorkbook;
- public class DateToExcel {
- private String driverClass = "com.mysql.jdbc.Driver";
- private String url = "jdbc:MySQL://localhost/boutiquecourse";
- private String user = "root";
- private String password = "";
- private Connection connection;
- public void exportClassroom(OutputStream os) {
- try {
- WritableWorkbook wbook = Workbook.createWorkbook(os); // 建立excel文件
- WritableSheet wsheet = wbook.createSheet("测试转换", 0); // 工作表名称
- //设置Excel字体
- WritableFont wfont = new WritableFont(WritableFont.ARIAL, 16,
- WritableFont.BOLD, false,
- jxl.format.UnderlineStyle.NO_UNDERLINE,
- jxl.format.Colour.BLACK);
- WritableCellFormat titleFormat = new WritableCellFormat(wfont);
- String[] title = { "测试编号", "测试名称"};//如果还有字段的话,以此类推
- // 设置Excel表头
- for (int i = 0; i < title.length; i++) {
- Label excelTitle = new Label(i, 0, title[i], titleFormat);
- wsheet.addCell(excelTitle);
- }
- int c = 1; // 用于循环时Excel的行号
- Connection con = openConnection();
- Statement st = con.createStatement();
- String sql = "select * from test";
- ResultSet rs = st.executeQuery(sql); // 这个是从数据库中取得要导出的数据
- while (rs.next()) {
- Label content1 = new Label(0, c, (String) rs.getString("testid"));
- Label content2 = new Label(1, c, (String) rs.getString("testname"));
- //如果还有的话,以此类推
- wsheet.addCell(content1);
- wsheet.addCell(content2);
- //如果还有的话,以此类推
- c++;
- }
- wbook.write(); // 写入文件
- wbook.close();
- os.close();
- System.out.println("导入成功!");
- } catch (Exception e) {
- e.printStackTrace();
- }
- }
- public Connection openConnection() throws SQLException {
- try {
- Class.forName(driverClass).newInstance();
- connection = DriverManager.getConnection(url, user, password);
- return connection;
- } catch (Exception e) {
- throw new SQLException(e.getMessage());
- }
- }
- public void closeConnection() {
- try {
- if (connection != null)
- connection.close();
- } catch (Exception e) {
- e.printStackTrace();
- }
- }
- public static void main(String[] args) {
- DateToExcel te = new DateToExcel();
- File f = new File("D:/kk.xls");
- //File f = new File("D:\\kk.xls");
- try {
- f.createNewFile();
- OutputStream os = new FileOutputStream(f);
- te.exportClassroom(os);
- } catch (Exception e) {
- e.printStackTrace();
- }
- }
- }
以上是关于java读取pdf内容的主要内容,如果未能解决你的问题,请参考以下文章
java操作office和pdf文件java读取word,excel和pdf文档内容