.docx 和 .doc 文件的结构是啥?
Posted
技术标签:
【中文标题】.docx 和 .doc 文件的结构是啥?【英文标题】:What is the structure of a .docx and .doc file?.docx 和 .doc 文件的结构是什么? 【发布时间】:2016-10-14 07:56:40 【问题描述】:我了解到 .docx 文件基本上是二进制文件。但我不知道下面的结构。
.docx 文件的基本结构是什么?比如,标题有多长?实际文档内容从什么时候开始?最后有签名吗?
基本上,.docx 文件的结构是什么?
【问题讨论】:
因为如果我理解这个结构,我将不得不用 C++ 编写关于 .docx 文件结构@UmNyobe 的编码 【参考方案1】:Docx 基本上是一个包含大量 xml 文件的 zip 存档。它是一种开放格式,文档可在线获取。 wikipedia article 有一般描述和您需要的链接。
【讨论】:
【参考方案2】:我要回答这个问题:“DocX 文件的结构是什么?”
官方答复
有关 DocX 目录结构的示例,请参阅 OOXML 官方文章“OOXML 剖析”:
http://officeopenxml.com/anatomyofOOXML.php
以 DocX XML 文档为例:
http://officeopenxml.com/WPsampleDoc.php
我个人的建议
但是,在仔细观察这些之后,我猜测细节在哪里变得模糊,我无法制作.docx
文件。
我选择了这条捷径:在 Libre Office 中创建一个Docx
文件(支持.docx
扩展),以您希望生成的 docx 文件的格式创建一个通用模板,将文件另存为 .docx,复制并另存为 .zip。
打开这个 .zip 目录,你会看到我发现在解释规范方面比上面的官方链接要好得多。
示例
例如,如果您在 .docx 中制作文章,则在标题大小写/格式设置中,[[Title]]
位于顶部,By: [[Author]]
用于作者等,等等。然后使用您的代码,使用该模板,然后将 [[field]]
替换为您准备放入其中的任何 $data
。
【讨论】:
以上是关于.docx 和 .doc 文件的结构是啥?的主要内容,如果未能解决你的问题,请参考以下文章