寻找用于从 ppt、pptx、doc、docx 文件中解析和提取对象的库 [关闭]

Posted

技术标签:

【中文标题】寻找用于从 ppt、pptx、doc、docx 文件中解析和提取对象的库 [关闭]【英文标题】:Looking for a library for parsing and extracting objects from ppt, pptx, doc, docx files [closed] 【发布时间】:2011-01-21 07:20:48 【问题描述】:

我正在寻找一个可以打开 ppt、pptx、doc、docx 文件的库,对其进行解析并从中提取所有对象。

例如,在 ppt 中,它可以提取所有对象属性,如图像、文本、表格自动形状等。然后为我提供对象位置/大小和格式,如字体大小/颜色/粗体等。对于图像,可以将每个图像保存为 jpg 文件。 图书馆还应该能够拍摄整张幻灯片的快照。

我已经尝试aspose 这样做,但获取此信息并不准确。不会提取所有属性加上它的导出,因为图像不准确。使用开放式办公图书馆有什么想法吗?

我愿意使用 Java 或 C++ 库。

【问题讨论】:

【参考方案1】:

在工作中,我们使用 openoffice Java api 从 ppt/pptx 文件中提取图像。我使用了来自here 的文档。我很确定您可以使用该指南中的信息来做您需要的事情。

祝你好运。

【讨论】:

非常感谢您的帮助,您能否指出一个从 ppt/pptx 文件中提取图像的简单示例,我需要将提取的图像与我从 aspose 获得的图像进行比较以做出决定提前切换到开放式办公室 您可以使用 Apache Tika 作为完整的解决方案。另一个不错的库是RawText,因为它可以对图像进行 OCR。它是非免费的,并且可以通过 REST API 运行。【参考方案2】:

一个选项是apache poi 库 - 周围有示例,而且周围的材料似乎比 openoffice API 上的要多。

【讨论】:

以上是关于寻找用于从 ppt、pptx、doc、docx 文件中解析和提取对象的库 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

java读取txt/pdf/xls/xlsx/doc/docx/ppt/pptx

在我的应用程序中打开(xlsx,ppt,pptx.docx)从 safari 或邮件不起作用

嵌入 Office ,doc|docx|xls|xlsx|ppt|pptx|pdf|等

用java读取多种文件格式的文件(pdf,pptx,ppt,doc,docx..)

纯js判断文件流格式类型:pdf,doc,docx,xls,xlsx,ppt,pptx一次搞定!

怎样在Android中解析doc,docx,xls,xlsx格式文