将 HTML 转换为 odt、doc、docx
Posted
技术标签:
【中文标题】将 HTML 转换为 odt、doc、docx【英文标题】:Converting HTML to odt, doc, docx 【发布时间】:2011-12-05 07:51:32 【问题描述】:有没有一种简单的方法可以从 linux 服务器上的命令行将 html(带有 CSS 样式和嵌入图像)转换为 ODT、DOCX、DOC。我搜索了很多,但没有找到一个好的选择。 由 wkhtmltopdf 决定的转换为 PDF 的相同方式存在问题。或许有办法将生成的 PDF 文档转换为其他格式?
【问题讨论】:
【参考方案1】:安装pandoc
后,转换为odt
非常简单。
在相对困难的部分之后:从odt
(甚至html
)你可以通过例如脚本(Open|Libre)Office unoconv
或者你可以喜欢:
abiword --to=doc filename.odt
另见this thread和this blog post。
HTH
【讨论】:
Pandoc 好东西——我在找什么。但我对表格有疑问 - 它们被转换为常规部分 - 表格将在每个文档中,它们非常重要。 对于使用 wkhtmltopdf 的 pdf im,对于需要使用 xvfb 的服务器 - 但结果是完美的。 刚试过pandoc,很糟糕。它不适用于图像尺寸,从我的搜索来看,这是一个长期存在的问题。 好的,刚试过abiword。它有一个减号 - 也没有工作:像终端中的转换器一样启动它只是与Aborted(core dumped)
崩溃。但它有一个优点——它是一个图形应用程序,可以启动它,然后打开一个 html,然后“另存为”odt。但它有一个缺点:它出于未知原因将图像移动到第二页(我还没有尝试将更多图像添加到 html)。天哪……好吧,搞砸了,我希望我的大学不会反对 html 而不是办公文档……
截至 2017 年 9 月,Pandoc 仍然不转换稍微复杂一些的表,例如 colspan github.com/jgm/pandoc/issues/1024【参考方案2】:
我发现 soultion - 是控制台变体中的 abiword。
【讨论】:
【参考方案3】:如果您想将 HTML 转换为 docx,您可以使用phpDocX 之类的解决方案。不过,您需要获得 PRO 版本,因为免费版本不包含转换功能。
【讨论】:
嗯,我是 PHPDocX 的开发人员之一,所以我知道这个工具,当我觉得它对任何人都有用时,我会发表评论......我希望这没有什么问题:-) 本身没有错,但如果您匿名发布,可能会质疑答案的诚意。你在隐藏什么? :) 如果您在此类答案中添加“披露:我是...的开发人员之一”,您会留下更好的印象。 @EduardoRamos phpdocx 如何处理 html > docx?我是否需要将我的带有永恒资源的 html 文件转换为完全内联(包括 base64 编码的图像),或者我可以给您发送一个 zip 文件吗?【参考方案4】:如果您使用的是 ruby,则有一个基于 libreoffice headless(带有 pyod/jod 转换器)和 pdf 工具的 gem
https://github.com/itkin/proselytism.git
【讨论】:
我现在已经迁移到 ruby 上了。非常感谢)【参考方案5】:将您的问题发布到 pandoc GoogleGroup,John 在各个方面都非常敏感。
您甚至可能会发现最新版本 v1.9 可能会解决您的问题,或者您可能只需要更详细地了解工具集。
【讨论】:
以上是关于将 HTML 转换为 odt、doc、docx的主要内容,如果未能解决你的问题,请参考以下文章
将 .odt .doc .ods 文件转换为 .txt 文件
在 AWS Lambda 上使用 Python 将 MS Word(.doc 和 .docx)文件转换为 HTML