java解析word文档都有哪些方法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了java解析word文档都有哪些方法相关的知识,希望对你有一定的参考价值。

java读取word文档时,虽然网上介绍了很多插件poi、java2Word、jacob、itext等等,poi无法读取格式(新的API估
计行好像还在处于研发阶段,不太稳定,做项目不太敢用);java2Word、jacob容易报错找不到注册,比较诡异,我曾经在不同的机器上试过,操作
方法完全一致,有的机器不报错,有的报错,去他们论坛找高人解决也说不出原因,项目部署用它有点玄;itxt好像写很方便但是我查了好久资料没有见到过关
于读的好办法。经过一番选择还是折中点采用rtf最好,毕竟rtf是开源格式,不需要借助任何插件,只需基本IO操作外加编码转换即可。rtf格式文件表
面看来和doc没啥区别,都可以用word打开,各种格式都可以设定。

----- 实现的功能:读取rtf模板内容(格式和文本内容),替换变化部分,形成新的rtf文档。

----- 实现思路:模板中固定部分手动输入,变化的部分用$info$表示,只需替换$info$即可。

1、采用字节的形式读取rtf模板内容

2、将可变的内容字符串转为rtf编码

3、替换原文中的可变部分,形成新的rtf文档

主要程序如下:

public String bin2hex(String bin)

char[] digital = "0123456789ABCDEF".toCharArray();

StringBuffer sb = new StringBuffer("");

byte[] bs = bin.getBytes();

int bit;

for (int i = 0; i < bs.length;i++)

bit = (bs[i] & 0x0f0)
>> 4;

sb.append("\\'");

sb.append(digital[bit]);

bit = bs[i] & 0x0f;

sb.append(digital[bit]);



return sb.toString();



public String readByteRtf(InputStream ins, String path)

String sourcecontent =
"";

try

ins = new
FileInputStream(path);

byte[] b
= new byte[1024];

if (ins == null)

System.out.println("源模板文件不存在");



int bytesRead = 0;

while (true)

bytesRead = ins.read(b, 0, 1024); // return final read bytes
counts

if(bytesRead == -1) // end of InputStream

System.out.println("读取模板文件结束");

break;



sourcecontent += new String(b, 0, bytesRead); // convert to string
using bytes



catch(Exception e)

e.printStackTrace();



return sourcecontent ;



以上为核心代码,剩余部分就是替换,从新组装java中的String.replace(oldstr,newstr);方法可以实现,在这就不贴了。源代码部分详见附件。

运行源代码前提:

c盘创建YQ目录,将附件中"模板.rtf"复制到YQ目录之下,运行OpreatorRTF.java文件即可,就会在YQ目录下生成文件名如:21时15分19秒_cheney_记录.rtf
的文件。

package com;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileWriter;

import java.io.IOException;

import java.io.InputStream;

import java.io.PrintWriter;

import java.text.SimpleDateFormat;

import java.util.Date;

public class OperatorRTF

public String strToRtf(String content)

char[] digital = "0123456789ABCDEF".toCharArray();

StringBuffer sb = new StringBuffer("");

byte[] bs = content.getBytes();

int bit;

for (int i = 0; i < bs.length; i++)

bit = (bs[i] & 0x0f0)
>> 4;

sb.append("\\'");

sb.append(digital[bit]);

bit = bs[i] & 0x0f;

sb.append(digital[bit]);



return sb.toString();



public String replaceRTF(String content,String replacecontent,int
flag)

String rc = strToRtf(replacecontent);

String target = "";

if(flag==0)

target = content.replace("$timetop$",rc);



if(flag==1)

target = content.replace("$info$",rc);



if(flag==2)

target = content.replace("$idea$",rc);



if(flag==3)

target = content.replace("$advice$",rc);



if(flag==4)

target = content.replace("$infosend$",rc);



return target;



public String getSavePath()

String path = "C:\\YQ";

File fDirecotry = new File(path);

if (!fDirecotry.exists())

fDirecotry.mkdirs();



return path;



public String ToSBC(String input)

char[] c =
input.toCharArray();

for (int i =
0; i < c.length; i++)

if (c[i] == 32)

c[i] = (char) 12288;

continue;



if (c[i] < 127)

c[i] = (char) (c[i] + 65248);





return new
String(c);



public void rgModel(String username, String content)

// TODO Auto-generated method stub

Date current=new Date();

SimpleDateFormat sdf=new java.text.SimpleDateFormat("yyyy-MM-dd
HH:mm:ss");

String targetname = sdf.format(current).substring(11,13) + "时";

targetname += sdf.format(current).substring(14,16) + "分";

targetname += sdf.format(current).substring(17,19) + "秒";

targetname += "_" + username +"_记录.rtf";

String strpath = getSavePath();

String sourname = strpath+"\\"+"模板.rtf";

String sourcecontent = "";

InputStream ins = null;

try

ins = new FileInputStream(sourname);

byte[] b = new byte[1024];

if (ins == null)

System.out.println("源模板文件不存在");



int bytesRead = 0;

while (true)

bytesRead = ins.read(b, 0, 1024); // return final read bytes
counts

if(bytesRead == -1) // end of InputStream

System.out.println("读取模板文件结束");

break;



sourcecontent += new String(b, 0, bytesRead); // convert to string
using bytes



catch(Exception e)

e.printStackTrace();



String targetcontent = "";

String array[] = content.split("~");

for(int i=0;i<array.length;i++)

if(i==0)

targetcontent = replaceRTF(sourcecontent, array[i], i);

else

targetcontent = replaceRTF(targetcontent, array[i], i);





try

FileWriter fw = new FileWriter(getSavePath()+"\\" +
targetname,true);

PrintWriter out = new PrintWriter(fw);

if(targetcontent.equals("")||targetcontent=="")

out.println(sourcecontent);

else

out.println(targetcontent);



out.close();

fw.close();

System.out.println(getSavePath()+" 该目录下生成文件" +
targetname + " 成功");

catch (IOException e)

// TODO Auto-generated catch block

e.printStackTrace();





public static void main(String[] args)

// TODO Auto-generated method stub

OperatorRTF oRTF = new OperatorRTF();

String content =
"2008年10月12日9时-2008年10月12日6时~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法";

oRTF.rgModel("cheney",content);



参考技术A POI就很好用,可以参考一下 参考技术B 只使用过java poi 解析过 你可以去看看

java 怎么把pdf转成word

有个pdf库,Free Spire.PDF for Java,可以直接调用方法saveToFile("ToWord.docx",FileFormat.DOCX)转成Word,方法很简单。

可参考原文

参考技术A 可以用PDFBox
至于生成word,用POI;HTML的话,自己解析就可以了
PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。
它具有以下特性:
1.将一个PDF文档转换输出为一个文本文件。
2.可以从文本文件创建一个PDF文档。
3.加密/解密PDF文档。
4.向已有PDF文档中追加内容。
5.可以从PDF文档生成一张图片。
6.可以与Jakarta Lucene搜索引擎的整合
参考技术B 估计是想把java的书转成word的格式的。。写程序的话,这个问题太蠢了。 参考技术C 先把PDF复制到TXT里,然后转到WORD里就可以了 参考技术D 你是自己想写程序? 还是找专门的工具去帮你转? 如果是后者,可以联系我,我给你介绍几个好用的工具。本回答被提问者采纳

以上是关于java解析word文档都有哪些方法的主要内容,如果未能解决你的问题,请参考以下文章

在线word文档编辑都有哪些

java打印word

Word VBA 的主要对象体系结构是怎样的?编辑中常用对象都有哪些?

word文档中的表格或者excel中,用啥键可以使光标往下移动呢?常用的快捷键都有哪些?

java 怎么把pdf转成word

怎么查看Java API文档?