近期在跟一个处理docx文档的项目,导包是必不可免的,下面是因本次项目接触到的,可以处理docx的工具(包含但不仅有以下)。通过对该工具的简介和个人对其的见解进行介绍,并给出其在Maven Repository的链接:
POI是我查到的第一个工具,也许先入为主了,POI是我在网络上能查询到的资料最多的有关处理office文档的工具,但个人看来POI更倾向于处理Excel文档,它针对Word文档的支持比较少。POI在线文档:http://poi.apache.org/apidocs/index.html
引用Aspose Words是因为在写完一套处理docx格式文档的代码时,不想针对doc格式文档再重新写一套,所以这时候需要对doc格式文档进行格式转换工作,经查询Aspose Words能够实现这一功能,遂试,发现存在缺陷:一是在本文编写时期Aspose Words工具包还是测试阶段,对doc转docx有字数或是什么限制,反正格式转换过后生成的docx格式文档的内容和源文档是不一样的;二是在本文编写时期,据说该工具包是收费的,所以想要商用的朋友请斟酌,或者等它开源(有点不现实吧)。
简称jacob,可以完美完成doc转docx这一任务,惊喜发现其实jacob还支持更多的格式转换,如Excel转PDF,Word转PPT等,每个格式由一个常量表示,调用十分简单,强力推荐,但其不足也很致命:Linux环境下不能运行(T△T)。
4.Apache POI Xwpf Converter Core + Apache POI Xwpf Converter XHTML
这两个工具包也是Apache出的,启用这一组合是想实现docx转html文件的需求,具体应用可以参考:https://github.com/jeckeyLiu/word2Html/blob/master/src/main/java/com/abc/word2Html/util/Word2Html.java,在网络上能找到“更多”借助core+xhtml实现docx转html的代码,但在调试会出现NoSuchMethod异常,本人至今未解决...
5.Docx4J
这个真的是处理docx的神器,它是直击docx本质的工具,office文档的底层其实是xml,所以Docx4J其实也就是解析xml,对docx的支持强大,强强力推荐
6.itext
没用过,只听说过也可以处理,这里列出来作为日后备用资料
以上,有新会更新