python模块将doc/pdf/docx/rtf格式转换为文本[重复]
Posted
技术标签:
【中文标题】python模块将doc/pdf/docx/rtf格式转换为文本[重复]【英文标题】:python module to convert doc/pdf/docx/rtf formats to text [duplicate] 【发布时间】:2017-04-30 15:45:02 【问题描述】:我正在谷歌搜索答案,但我找不到一个模块来将 doc/pdf/docx/rtf 转换为文本
有没有python模块可以将doc/pdf/docx/rtf格式转换为文本?
【问题讨论】:
也适用于 Word:***.com/q/42482/3377150 也适用于 RTF:***.com/q/1337446/3377150 【参考方案1】:一个模块来统治他们!
textract。它支持许多用于文本提取的文件类型,包括您在问题中指定的所有文件类型。
.doc via antiword .pdf 通过 pdftotext(默认)或 pdfminer.six .docx 通过 python-docx .rtf 通过 unrtfPDF 示例
http://textract.readthedocs.io/en/latest/python_package.html
import textract
text = textract.process('path/to/a.pdf', method='pdfminer')
【讨论】:
以上是关于python模块将doc/pdf/docx/rtf格式转换为文本[重复]的主要内容,如果未能解决你的问题,请参考以下文章