将带有(有序)列表的 docx 转换为 html

Posted

技术标签:

【中文标题】将带有(有序)列表的 docx 转换为 html【英文标题】:convert docx with (ordered) list to html 【发布时间】:2016-01-09 02:40:45 【问题描述】:

我正在尝试将具有多层有序列表的大型 docx 文档转换为 html。 (请参阅此处的文档示例:http://docdro.id/X1oyfBv 你应该下载它)

我尝试了以下方法,包括:

html-cleaner 和 index.html 等在线转换器(仅识别列表的一层)

另存为 html - 这会创建一个可怕的文件,但仍然无法识别 ol 结构。

将文件保存为 zip,然后打开 xml 文件,但我没有看到从 w:... 标签中获取 ol 结构的简单方法

将其保存到谷歌文档并运行 Omar Alzabir 的脚本 http://omaralzabir.com/wp-content/uploads/2014/05/GoogleDocsEmail.jpg

顺便说一句。如果我创建一个带有多层有序列表的 word 文件并将其转换,它确实将其识别为 ol's。但是即使我“取消列出”并再次列出,现有文件也不会被识别为 ol。所以原始文档的创建方式可能有问题(?)

非常感谢任何建议:) 或说明为什么会出现此问题

【问题讨论】:

另存为.docx看看是否有效 @Dipak 我就是这么做的 【参考方案1】:

您可以使用pandoc : https://github.com/jgm/pandoc

这是一个开源的通用命令行工具,用于转换基于标记源的文档文件。

你可以像这样使用它:

  pandoc -o output.html input.docx

【讨论】:

谢谢!实际上对于创建它的示例文档来说,它是有效的,并且创建了 ol 标签。对于实际的大文档,无法识别 ol 标签,而是创建带有数字 1.2 等硬编码的 p 标签。我可以看看我是否可以为后一种情况创建一个更好的示例文档【参考方案2】:

您是否在问如何以 HTML 格式保存 Word-doc,并带有多级有序列表?

Word-HTML 在其多级有序列表中存在错误。对于列表项,缩进往往不正确且不一致。有一个例子here。

Word-HTML 在其多级无序列表中有类似的错误。一个例子是here。

我最近在 Word 的 HTML 中编写了一个修复这些错误的 Python 程序。该程序是WordWebNav (WWN) 的一部分,它是免费和开源的。

WWN 是一款将 Microsoft-Word 文档转换为可用网页的应用程序。它在 Word-HTML 网页中添加了一些缺失的功能(例如,导航窗格),并修复了 Word-HTML 中的错误。

【讨论】:

以上是关于将带有(有序)列表的 docx 转换为 html的主要内容,如果未能解决你的问题,请参考以下文章

WORD转HTML-python第三方包Mammoth(官方文档翻译)

带有 LibreOffice 的 JodConverter 在 docx 到 pdf 转换后将所有字母输出为正方形

怎么把doc文件转换成docx

在PHP中将HTML有序/无序列表转换为纯文本[重复]

如何将word 文件.docx转成.PDF文件

ConvertAPI:将 HTML 转换为 DOCX 不适用于网格 css