apache tika 可以导出excel吗

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了apache tika 可以导出excel吗相关的知识,希望对你有一定的参考价值。

参考技术A 可以的,需要设置一下。 参考技术B 在lucene 检索 如火如荼时, apache不忘继续努力,近期提供了对各种格式文件进行解析的解决方案 -- apache旗下的tika. 虽然还没有1.0版 , 但已经很好用:~本回答被提问者采纳

跟踪更改的docx在Apache Tika中产生错误的输出

我正在使用apache tika解析docx文件。

AutoDetectParser parser = new AutoDetectParser();
ContentHandler contentHandler = new BodyContentHandler();
inputStream = new BufferedInputStream(new FileInputStream(inputFileName));
Metadata metadata = new Metadata();

OfficeParserConfig officeParserConfig = new OfficeParserConfig();
officeParserConfig.setIncludeDeletedContent(false);
parseContext.set(OfficeParserConfig.class, officeParserConfig);

parser.parse(inputStream, contentHandler, metadata, parseContext);
System.out.println(contentHandler.toString());

当我发送track_revised docx文件时,它会添加所有删除的文本和实际文本以及插入的文本。有没有办法告诉解析器排除已删除的文本?

答案

我确实搞清楚了

AutoDetectParser parser = new AutoDetectParser();
ContentHandler contentHandler = new BodyContentHandler();
inputStream = new BufferedInputStream(new FileInputStream(inputFileName));
Metadata metadata = new Metadata();
ParseContext parseContext = new ParseContext();
OfficeParserConfig officeParserConfig = new OfficeParserConfig();
officeParserConfig.setUseSAXDocxExtractor(true);
officeParserConfig.setIncludeDeletedContent(false);
parseContext.set(OfficeParserConfig.class, officeParserConfig);

parser.parse(inputStream, contentHandler, metadata, parseContext);
System.out.println(contentHandler.toString());

以上是关于apache tika 可以导出excel吗的主要内容,如果未能解决你的问题,请参考以下文章

JavaBean数据导出excel与csv文件

javapoi数据导出成excel如何才能指定文件输出路径 现在是知道E盘路径 怎么弄成弹框选择路径

使用Apache POI导出Excel小结--导出XLS格式文档

网页导出无法生成excel,有啥方法可以解决吗?

.net,可以循环导出多个Excel文件吗?

excel 怎么批量查询快递签收情况