在 AWS Lambda 上使用 Python 将 MS Word(.doc 和 .docx)文件转换为 HTML
Posted
技术标签:
【中文标题】在 AWS Lambda 上使用 Python 将 MS Word(.doc 和 .docx)文件转换为 HTML【英文标题】:Convert MS Word (.doc and .docx) file to HTML using Python on AWS Lambda 【发布时间】:2016-11-29 16:47:48 【问题描述】:尝试在 AWS Lambda 上使用 Python 将 MS Word 文件转换为 html。对于 .docx,我知道有一个名为 python-docx 的库。但是当谈到 .doc 时,我仍然找不到一个优雅而简单的解决方案,因为大多数可能的解决方案都是使用 LibreOffice 或 OpenOffice。
有没有办法制作一个可移植版本的 LibreOffice/OpenOffice,可以通过 AWS Lambda 上的 Python 脚本进行操作?或者,是否有我省略的 .doc 文件的 Python 库?
【问题讨论】:
您找到解决方案了吗?如果是这样,请分享您的经验。我还想在 Lambda 中使用 LibreOffice/OpenOffice 的一些功能。基本上我想将 .doc 文件转换为 .pdf。 【参考方案1】:如果您正在寻找在 AWS Lambda 中运行的 LibreOffice,这可能会对您有所帮助。最近我设法创建了一个在 Lambda 中运行的便携式版本。
https://github.com/vladgolubev/serverless-libreoffice
【讨论】:
【参考方案2】:不幸的是,目前似乎没有优雅的解决方案来解决这个问题。我曾尝试制作 LibreOffice/OpenOffice 的便携版本,但最大的问题是大小,超出了 AWS Lambda 的限制。
也许您想尝试一下 Pandoc,尽管它无法处理 .doc 文件。但我在 AWS Lambda 上成功使用了它。您可以访问here 了解如何为 AWS Lambda 制作便携式版本。
【讨论】:
以上是关于在 AWS Lambda 上使用 Python 将 MS Word(.doc 和 .docx)文件转换为 HTML的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 Python 在 AWS Lambda 上运行 SQLAlchemy
使用 python 写入 aws lambda 中的 /tmp 目录
试图在AWS Lambda上运行python脚本,但是如果加载virtualenv目录,Lambda会失败