使用 OpenOffice API 抓取整个文档树

Posted

技术标签:

【中文标题】使用 OpenOffice API 抓取整个文档树【英文标题】:Grab entire document tree with OpenOffice API 【发布时间】:2009-07-22 00:14:53 【问题描述】:

我想在OpenOffice 3.1 中获取整个树以获取Writer 文档。我需要收集树中所有元素的数据,而不仅仅是 Text 元素。

通过加载XTextDocument 并执行getText() 将得到XText 元素。更具体地说,使用XText 中的XEnumerationAccess 只会遍历TextRange

来自 OpenOffice 文档/DevGuide/Text/Iterating_over_Text:

com.sun.star.text.Text的第二个接口是XEnumerationAccess。文本服务枚举文本中的所有段落,并返回支持 com.sun.star.text.Paragraph 的对象。这包括表格,因为作者将表格视为支持 com.sun.star.text.TextTable 服务的特殊段落。

这里有一些额外的文档:

段落的文本部分枚举提供确实属于该段落的内容,但不与文本流融合在一起。这些可以是文本框架、图形对象、嵌入对象或锚定在段落、字符或作为字符的图形形状。 TextPortionType“TextContent”指示是否有内容锚定在字符或作为字符。如果你有一个 TextContent 部分类型,你就知道有一些形状对象锚定在一个字符上或作为一个字符。

我的测试文档表明我确实得到了XTextContent,并且可以通过getAnchor() 收集XTextRange。但是如何确定我正在收集的内容类型?唯一的方法是getString()。如果对象是嵌入图像,我如何收集其数据?

我正在使用 C++,但我相信 Java 中的解决方案是可移植的。


从答案迁移

由于格式不佳,此评论作为答案发布。

感谢您的回复。

我打算使用 API。

我正在尝试从文档中收集GrahicObjects 的示例。通过使用XGraphicObjectsSupplier,我可以通过getGraphicObjects() 获得一个集合。集合中的对象是Any,通过getValueTypeName() 打印类型会得到XTextContent

API 描述该集合拥有一个TextGraphicObject“服务”。如何获取它的实例?

【问题讨论】:

【参考方案1】:

您的问题的答案会很复杂,但我会尽量让自己易于理解。

将文档导出为 XML 使用 SAX 更容易处理。如果 使用 XML 方式,您将不得不 实现 XDocumentHandler 并阅读 文档(可选过滤什么 你不需要)。剩下的工作将是 XSLT 转换或大型文档的 SAX。

如果您更喜欢仅使用 API, 你必须玩很多 XServiceInfoUnoRuntime.queryInterface

【讨论】:

【参考方案2】:

在java中:

XComponentContext xContext = Bootstrap.bootstrap();
XMultiComponentFactory xMCF = xContext.getServiceManager();
Object oDesktop = xMCF.createInstanceWithContext("com.sun.star.frame.Desktop", xContext);
XDesktop xDesktop = UnoRuntime.queryInterface(XDesktop.class, oDesktop);
XComponentLoader xCompLoader = UnoRuntime.queryInterface(XComponentLoader.class, xDesktop);
XComponent xComp = xCompLoader.loadComponentFromURL("file:///C:/test.odt", "_blank", 0, new Boolean(true));
XTextDocument xDoc = UnoRuntime.queryInterface(XTextDocument.class, xComp);
XModel xModel =UnoRuntime.queryInterface( XModel.class, xDoc );
XDrawPageSupplier xDPS = UnoRuntime.queryInterface(XDrawPageSupplier.class, xModel);
XDrawPage xDrawPage = xDPS.getDrawPage();
XShapes xShapes = UnoRuntime.queryInterface( XShapes.class, xDrawPage );
for (int s=0;s<xDrawPage.getCount();s++) 
   XShape xShape = UnoRuntime.queryInterface( XShape.class, xShapes.getByIndex(s) );
   System.out.println(" -- sh.getShapeType: " + xShape.getShapeType());
   System.out.println(" -- sh.getPosition: " + xShape.getPosition().X + "x" + xShape.getPosition().Y);
   System.out.println(" -- sh.getSize: " + xShape.getSize().Width + "x" + xShape.getSize().Height);

【讨论】:

以上是关于使用 OpenOffice API 抓取整个文档树的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 OpenOffice API 将 HTML 文本放入 OpenOffice 文档

OpenOffice,将文档写入 servlet 响应

使用 OpenOffice java api 保存文档会引发异常

OpenOffice API:将 Impress(演示)文档保存为独立文件

OpenOffice Basic 宏与 openoffice API

OpenOffice.org API 还是 LibreOffice API?