Java中如何用I/O流读取一个Word文档的内容

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Java中如何用I/O流读取一个Word文档的内容相关的知识,希望对你有一定的参考价值。

public ActionForward readWordFile (ActionMapping mapping, ActionForm form,HttpServletRequest request, HttpServletResponse response)
try
/*FileInputStream in = new FileInputStream("F:\\\\abc.doc.doc");
*/
TextFileForm fileForm = (TextFileForm) form;
FormFile formFile = fileForm.getTxtFile();
if (formFile.getFileData().length == 0)
response.setCharacterEncoding("gb2312");
response.getWriter().write("");

InputStream in = formFile.getInputStream();
WordExtractor extractor = new WordExtractor();

String str = extractor.extractText(in);

// System.out.println(str);
catch (Exception e)
e.printStackTrace();

return null;
code]

我曾经项目中用到过读取word,你用不到的逻辑我已经删掉了,这段代码就是负责读取word的,file是通过struts提交得到的。你也可以用注释中的代码,就可以实现你想要的那种指定url了,两种方式你选择。不过要考虑客户端还是服务器 呵呵

对啦,最重要的一点,需要tm-extractors-0.4.jar包,你Google一下吧
参考技术A

    通过流来读取,例如:

TextFileForm fileForm = (TextFileForm) form; 
FormFile formFile = fileForm.getTxtFile(); 
if (formFile.getFileData().length == 0)  
response.setCharacterEncoding("gb2312"); 
response.getWriter().write(""); 
 
InputStream in = formFile.getInputStream(); 
WordExtractor extractor = new WordExtractor(); 

String str = extractor.extractText(in);
这段代码就是负责读取word的

参考技术B

添加spire.doc.jar为依赖,使用下面的代码可以读取word文档内容到txt文档

    import com.spire.doc.Document;

    import com.spire.doc.FileFormat;

    import java.io.IOException;


    public class ConvertWordToOtherFormats


        public static void main(String[] args) throws IOException


            //创建Document对象

            Document doc = new Document();

            //加载Word文档

            doc.loadFromFile("C:\\\\Users\\\\Administrator\\\\Desktop\\\\test.docx");

            //将Word保存为TXT格式

            doc.saveToFile("ToTXT.txt",FileFormat.Txt);

       

参考技术C POI等开源库,可以读到里面的文字等级

.net中如何用Aspose.Pdf读取PDF文档?

.Net程序,我下载了一个这样的dll,但是不知道怎么用它打开PDF的文档,请问怎么弄?
我主要是用的WPF, 请问我要用这个组件,前台如何调用,后台如何引用才能打开 ? 网上找不到具体的实现代码。

参考技术A 好像没有PDF阅读的功能……我也在找 参考技术B 参考官方的帮助吧

http://www.aspose.com/demos/.net-components/aspose.pdf/default.aspx追问

我想要代码。这上面是操作啊。

追答

你看仔细一点呀,上面有几个标签,一项是Demo,另外几项就有对应的代码呀,如ASPX、.CS等

以上是关于Java中如何用I/O流读取一个Word文档的内容的主要内容,如果未能解决你的问题,请参考以下文章

java I/O 读取一个txt文件中每一个空行之后的第一行,怎么办?

java读取带格式word内容

.net中如何用Aspose.Pdf读取PDF文档?

Java中如何用正则表达式来提取string中两个/里面之间的内容?

《文件与I/O流》第5节:RandomAccessFile类

Java入门第六篇:I/O流