使用 OpenOffice API 抓取整个文档树
Posted
技术标签:
【中文标题】使用 OpenOffice API 抓取整个文档树【英文标题】:Grab entire document tree with OpenOffice API 【发布时间】:2009-07-22 00:14:53 【问题描述】:我想在OpenOffice 3.1 中获取整个树以获取Writer 文档。我需要收集树中所有元素的数据,而不仅仅是 Text
元素。
通过加载XTextDocument
并执行getText()
将得到XText
元素。更具体地说,使用XText
中的XEnumerationAccess
只会遍历TextRange
。
来自 OpenOffice 文档/DevGuide/Text/Iterating_over_Text:
com.sun.star.text.Text的第二个接口是XEnumerationAccess。文本服务枚举文本中的所有段落,并返回支持 com.sun.star.text.Paragraph 的对象。这包括表格,因为作者将表格视为支持 com.sun.star.text.TextTable 服务的特殊段落。
这里有一些额外的文档:
段落的文本部分枚举不提供确实属于该段落的内容,但不与文本流融合在一起。这些可以是文本框架、图形对象、嵌入对象或锚定在段落、字符或作为字符的图形形状。 TextPortionType“TextContent”指示是否有内容锚定在字符或作为字符。如果你有一个 TextContent 部分类型,你就知道有一些形状对象锚定在一个字符上或作为一个字符。
我的测试文档表明我确实得到了XTextContent,并且可以通过getAnchor()
收集XTextRange。但是如何确定我正在收集的内容类型?唯一的方法是getString()
。如果对象是嵌入图像,我如何收集其数据?
我正在使用 C++,但我相信 Java 中的解决方案是可移植的。
从答案迁移
由于格式不佳,此评论作为答案发布。
感谢您的回复。
我打算使用 API。
我正在尝试从文档中收集GrahicObjects
的示例。通过使用XGraphicObjectsSupplier
,我可以通过getGraphicObjects()
获得一个集合。集合中的对象是Any
,通过getValueTypeName()
打印类型会得到XTextContent
。
API 描述该集合拥有一个TextGraphicObject
“服务”。如何获取它的实例?
【问题讨论】:
【参考方案1】:您的问题的答案会很复杂,但我会尽量让自己易于理解。
将文档导出为 XML 使用 SAX 更容易处理。如果 使用 XML 方式,您将不得不 实现 XDocumentHandler 并阅读 文档(可选过滤什么 你不需要)。剩下的工作将是 XSLT 转换或大型文档的 SAX。
如果您更喜欢仅使用 API, 你必须玩很多 XServiceInfo 和 UnoRuntime.queryInterface
【讨论】:
【参考方案2】:在java中:
XComponentContext xContext = Bootstrap.bootstrap();
XMultiComponentFactory xMCF = xContext.getServiceManager();
Object oDesktop = xMCF.createInstanceWithContext("com.sun.star.frame.Desktop", xContext);
XDesktop xDesktop = UnoRuntime.queryInterface(XDesktop.class, oDesktop);
XComponentLoader xCompLoader = UnoRuntime.queryInterface(XComponentLoader.class, xDesktop);
XComponent xComp = xCompLoader.loadComponentFromURL("file:///C:/test.odt", "_blank", 0, new Boolean(true));
XTextDocument xDoc = UnoRuntime.queryInterface(XTextDocument.class, xComp);
XModel xModel =UnoRuntime.queryInterface( XModel.class, xDoc );
XDrawPageSupplier xDPS = UnoRuntime.queryInterface(XDrawPageSupplier.class, xModel);
XDrawPage xDrawPage = xDPS.getDrawPage();
XShapes xShapes = UnoRuntime.queryInterface( XShapes.class, xDrawPage );
for (int s=0;s<xDrawPage.getCount();s++)
XShape xShape = UnoRuntime.queryInterface( XShape.class, xShapes.getByIndex(s) );
System.out.println(" -- sh.getShapeType: " + xShape.getShapeType());
System.out.println(" -- sh.getPosition: " + xShape.getPosition().X + "x" + xShape.getPosition().Y);
System.out.println(" -- sh.getSize: " + xShape.getSize().Width + "x" + xShape.getSize().Height);
【讨论】:
以上是关于使用 OpenOffice API 抓取整个文档树的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 OpenOffice API 将 HTML 文本放入 OpenOffice 文档
使用 OpenOffice java api 保存文档会引发异常
OpenOffice API:将 Impress(演示)文档保存为独立文件