.docx 和 .doc 文件的结构是啥?

Posted

技术标签:

【中文标题】.docx 和 .doc 文件的结构是啥?【英文标题】:What is the structure of a .docx and .doc file?.docx 和 .doc 文件的结构是什么? 【发布时间】:2016-10-14 07:56:40 【问题描述】:

我了解到 .docx 文件基本上是二进制文件。但我不知道下面的结构。

.docx 文件的基本结构是什么?比如,标题有多长?实际文档内容从什么时候开始?最后有签名吗?

基本上,.docx 文件的结构是什么?

【问题讨论】:

因为如果我理解这个结构,我将不得不用 C++ 编写关于 .docx 文件结构@UmNyobe 的编码 【参考方案1】:

Docx 基本上是一个包含大量 xml 文件的 zip 存档。它是一种开放格式,文档可在线获取。 wikipedia article 有一般描述和您需要的链接。

【讨论】:

【参考方案2】:

我要回答这个问题:“DocX 文件的结构是什么?”

官方答复

有关 DocX 目录结构的示例,请参阅 OOXML 官方文章“OOXML 剖析”:

http://officeopenxml.com/anatomyofOOXML.php

以 DocX XML 文档为例:

http://officeopenxml.com/WPsampleDoc.php

我个人的建议

但是,在仔细观察这些之后,我猜测细节在哪里变得模糊,我无法制作.docx 文件。

我选择了这条捷径:在 Libre Office 中创建一个Docx 文件(支持.docx 扩展),以您希望生成的 docx 文件的格式创建一个通用模板,将文件另存为 .docx,复制并另存为 .zip。

打开这个 .zip 目录,你会看到我发现在解释规范方面比上面的官方链接要好得多。

示例

例如,如果您在 .docx 中制作文章,则在标题大小写/格式设置中,[[Title]] 位于顶部,By: [[Author]] 用于作者等,等等。然后使用您的代码,使用该模板,然后将 [[field]] 替换为您准备放入其中的任何 $data

【讨论】:

以上是关于.docx 和 .doc 文件的结构是啥?的主要内容,如果未能解决你的问题,请参考以下文章

docx文件基本结构

docx文件是啥?怎样转换成Word文档?

06.python实现docx文件处理_筛选出背景是红色的行

.docx、.pptx 等的正确 MIME 类型是啥?

.docx、.pptx 等的正确 MIME 类型是啥?

.docx、.pptx 等的正确 MIME 类型是啥?