python模块将doc/pdf/docx/rtf格式转换为文本[重复]

Posted

技术标签:

【中文标题】python模块将doc/pdf/docx/rtf格式转换为文本[重复]【英文标题】:python module to convert doc/pdf/docx/rtf formats to text [duplicate] 【发布时间】:2017-04-30 15:45:02 【问题描述】:

我正在谷歌搜索答案,但我找不到一个模块来将 doc/pdf/docx/rtf 转换为文本

有没有python模块可以将doc/pdf/docx/rtf格式转换为文本?

【问题讨论】:

也适用于 Word:***.com/q/42482/3377150 也适用于 RTF:***.com/q/1337446/3377150 【参考方案1】:

一个模块来统治他们!

textract。它支持许多用于文本提取的文件类型,包括您在问题中指定的所有文件类型。

.doc via antiword .pdf 通过 pdftotext(默认)或 pdfminer.six .docx 通过 python-docx .rtf 通过 unrtf

PDF 示例

http://textract.readthedocs.io/en/latest/python_package.html

import textract
text = textract.process('path/to/a.pdf', method='pdfminer')

【讨论】:

以上是关于python模块将doc/pdf/docx/rtf格式转换为文本[重复]的主要内容,如果未能解决你的问题,请参考以下文章

将python模块导入databricks中的python脚本

sh 如何将模块添加到python模块列表/路径

启动 Python 调试器,同时将模块作为脚本执行

Python没有正确地将文件作为模块导入

python c api无法将任何模块导入新创建的模块

找不到 Python pip 安装模块。如何将python链接到pip位置?