java解析word文档都有哪些方法
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了java解析word文档都有哪些方法相关的知识,希望对你有一定的参考价值。
java读取word文档时,虽然网上介绍了很多插件poi、java2Word、jacob、itext等等,poi无法读取格式(新的API估计行好像还在处于研发阶段,不太稳定,做项目不太敢用);java2Word、jacob容易报错找不到注册,比较诡异,我曾经在不同的机器上试过,操作
方法完全一致,有的机器不报错,有的报错,去他们论坛找高人解决也说不出原因,项目部署用它有点玄;itxt好像写很方便但是我查了好久资料没有见到过关
于读的好办法。经过一番选择还是折中点采用rtf最好,毕竟rtf是开源格式,不需要借助任何插件,只需基本IO操作外加编码转换即可。rtf格式文件表
面看来和doc没啥区别,都可以用word打开,各种格式都可以设定。
----- 实现的功能:读取rtf模板内容(格式和文本内容),替换变化部分,形成新的rtf文档。
----- 实现思路:模板中固定部分手动输入,变化的部分用$info$表示,只需替换$info$即可。
1、采用字节的形式读取rtf模板内容
2、将可变的内容字符串转为rtf编码
3、替换原文中的可变部分,形成新的rtf文档
主要程序如下:
public String bin2hex(String bin)
char[] digital = "0123456789ABCDEF".toCharArray();
StringBuffer sb = new StringBuffer("");
byte[] bs = bin.getBytes();
int bit;
for (int i = 0; i < bs.length;i++)
bit = (bs[i] & 0x0f0)
>> 4;
sb.append("\\'");
sb.append(digital[bit]);
bit = bs[i] & 0x0f;
sb.append(digital[bit]);
return sb.toString();
public String readByteRtf(InputStream ins, String path)
String sourcecontent =
"";
try
ins = new
FileInputStream(path);
byte[] b
= new byte[1024];
if (ins == null)
System.out.println("源模板文件不存在");
int bytesRead = 0;
while (true)
bytesRead = ins.read(b, 0, 1024); // return final read bytes
counts
if(bytesRead == -1) // end of InputStream
System.out.println("读取模板文件结束");
break;
sourcecontent += new String(b, 0, bytesRead); // convert to string
using bytes
catch(Exception e)
e.printStackTrace();
return sourcecontent ;
以上为核心代码,剩余部分就是替换,从新组装java中的String.replace(oldstr,newstr);方法可以实现,在这就不贴了。源代码部分详见附件。
运行源代码前提:
c盘创建YQ目录,将附件中"模板.rtf"复制到YQ目录之下,运行OpreatorRTF.java文件即可,就会在YQ目录下生成文件名如:21时15分19秒_cheney_记录.rtf
的文件。
package com;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.PrintWriter;
import java.text.SimpleDateFormat;
import java.util.Date;
public class OperatorRTF
public String strToRtf(String content)
char[] digital = "0123456789ABCDEF".toCharArray();
StringBuffer sb = new StringBuffer("");
byte[] bs = content.getBytes();
int bit;
for (int i = 0; i < bs.length; i++)
bit = (bs[i] & 0x0f0)
>> 4;
sb.append("\\'");
sb.append(digital[bit]);
bit = bs[i] & 0x0f;
sb.append(digital[bit]);
return sb.toString();
public String replaceRTF(String content,String replacecontent,int
flag)
String rc = strToRtf(replacecontent);
String target = "";
if(flag==0)
target = content.replace("$timetop$",rc);
if(flag==1)
target = content.replace("$info$",rc);
if(flag==2)
target = content.replace("$idea$",rc);
if(flag==3)
target = content.replace("$advice$",rc);
if(flag==4)
target = content.replace("$infosend$",rc);
return target;
public String getSavePath()
String path = "C:\\YQ";
File fDirecotry = new File(path);
if (!fDirecotry.exists())
fDirecotry.mkdirs();
return path;
public String ToSBC(String input)
char[] c =
input.toCharArray();
for (int i =
0; i < c.length; i++)
if (c[i] == 32)
c[i] = (char) 12288;
continue;
if (c[i] < 127)
c[i] = (char) (c[i] + 65248);
return new
String(c);
public void rgModel(String username, String content)
// TODO Auto-generated method stub
Date current=new Date();
SimpleDateFormat sdf=new java.text.SimpleDateFormat("yyyy-MM-dd
HH:mm:ss");
String targetname = sdf.format(current).substring(11,13) + "时";
targetname += sdf.format(current).substring(14,16) + "分";
targetname += sdf.format(current).substring(17,19) + "秒";
targetname += "_" + username +"_记录.rtf";
String strpath = getSavePath();
String sourname = strpath+"\\"+"模板.rtf";
String sourcecontent = "";
InputStream ins = null;
try
ins = new FileInputStream(sourname);
byte[] b = new byte[1024];
if (ins == null)
System.out.println("源模板文件不存在");
int bytesRead = 0;
while (true)
bytesRead = ins.read(b, 0, 1024); // return final read bytes
counts
if(bytesRead == -1) // end of InputStream
System.out.println("读取模板文件结束");
break;
sourcecontent += new String(b, 0, bytesRead); // convert to string
using bytes
catch(Exception e)
e.printStackTrace();
String targetcontent = "";
String array[] = content.split("~");
for(int i=0;i<array.length;i++)
if(i==0)
targetcontent = replaceRTF(sourcecontent, array[i], i);
else
targetcontent = replaceRTF(targetcontent, array[i], i);
try
FileWriter fw = new FileWriter(getSavePath()+"\\" +
targetname,true);
PrintWriter out = new PrintWriter(fw);
if(targetcontent.equals("")||targetcontent=="")
out.println(sourcecontent);
else
out.println(targetcontent);
out.close();
fw.close();
System.out.println(getSavePath()+" 该目录下生成文件" +
targetname + " 成功");
catch (IOException e)
// TODO Auto-generated catch block
e.printStackTrace();
public static void main(String[] args)
// TODO Auto-generated method stub
OperatorRTF oRTF = new OperatorRTF();
String content =
"2008年10月12日9时-2008年10月12日6时~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法";
oRTF.rgModel("cheney",content);
参考技术A POI就很好用,可以参考一下 参考技术B 只使用过java poi 解析过 你可以去看看
java 怎么把pdf转成word
有个pdf库,Free Spire.PDF for Java,可以直接调用方法saveToFile("ToWord.docx",FileFormat.DOCX)转成Word,方法很简单。
可参考原文
参考技术A 可以用PDFBox至于生成word,用POI;HTML的话,自己解析就可以了
PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。
它具有以下特性:
1.将一个PDF文档转换输出为一个文本文件。
2.可以从文本文件创建一个PDF文档。
3.加密/解密PDF文档。
4.向已有PDF文档中追加内容。
5.可以从PDF文档生成一张图片。
6.可以与Jakarta Lucene搜索引擎的整合 参考技术B 估计是想把java的书转成word的格式的。。写程序的话,这个问题太蠢了。 参考技术C 先把PDF复制到TXT里,然后转到WORD里就可以了 参考技术D 你是自己想写程序? 还是找专门的工具去帮你转? 如果是后者,可以联系我,我给你介绍几个好用的工具。本回答被提问者采纳
以上是关于java解析word文档都有哪些方法的主要内容,如果未能解决你的问题,请参考以下文章
Word VBA 的主要对象体系结构是怎样的?编辑中常用对象都有哪些?