在 AWS Lambda 上使用 Python 将 MS Word(.doc 和 .docx)文件转换为 HTML

Posted

技术标签:

【中文标题】在 AWS Lambda 上使用 Python 将 MS Word(.doc 和 .docx)文件转换为 HTML【英文标题】:Convert MS Word (.doc and .docx) file to HTML using Python on AWS Lambda 【发布时间】:2016-11-29 16:47:48 【问题描述】:

尝试在 AWS Lambda 上使用 Python 将 MS Word 文件转换为 html。对于 .docx,我知道有一个名为 python-docx 的库。但是当谈到 .doc 时,我仍然找不到一个优雅而简单的解决方案,因为大多数可能的解决方案都是使用 LibreOffice 或 OpenOffice。

有没有办法制作一个可移植版本的 LibreOffice/OpenOffice,可以通过 AWS Lambda 上的 Python 脚本进行操作?或者,是否有我省略的 .doc 文件的 Python 库?

【问题讨论】:

您找到解决方案了吗?如果是这样,请分享您的经验。我还想在 Lambda 中使用 LibreOffice/OpenOffice 的一些功能。基本上我想将 .doc 文件转换为 .pdf。 【参考方案1】:

如果您正在寻找在 AWS Lambda 中运行的 LibreOffice,这可能会对您有所帮助。最近我设法创建了一个在 Lambda 中运行的便携式版本。

https://github.com/vladgolubev/serverless-libreoffice

【讨论】:

【参考方案2】:

不幸的是,目前似乎没有优雅的解决方案来解决这个问题。我曾尝试制作 LibreOffice/OpenOffice 的便携版本,但最大的问题是大小,超出了 AWS Lambda 的限制。

也许您想尝试一下 Pandoc,尽管它无法处理 .doc 文件。但我在 AWS Lambda 上成功使用了它。您可以访问here 了解如何为 AWS Lambda 制作便携式版本。

【讨论】:

以上是关于在 AWS Lambda 上使用 Python 将 MS Word(.doc 和 .docx)文件转换为 HTML的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Python 在 AWS Lambda 上运行 SQLAlchemy

在 AWS Lambda 中导入 Paramiko 的问题

使用 python 写入 aws lambda 中的 /tmp 目录

试图在AWS Lambda上运行python脚本,但是如果加载virtualenv目录,Lambda会失败

MATLAB Runtime 可以在 AWS Lambda 上执行吗?

无法将 python-geoip 与 AWS Lambda 一起使用