如何使用python将txt文件或PDF转换为Word doc?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何使用python将txt文件或PDF转换为Word doc?相关的知识,希望对你有一定的参考价值。

有没有办法将PDF(或文本文件)转换为python中的Word文档?我正在为我的教授做一些网络抓取,原始文档是PDF。我将所有1,611个转换为文本文件,现在我们需要将它们转换为Word文档。我唯一能找到的是一个Word-to-txt转换器,而不是相反。

谢谢!

答案

使用python-docx我能够很容易地将txt文件转换为Word文档。

这就是我做的。

from docx import Document
import re
import os

path = '/users/tdobbins/downloads/smithtxt'
direct = os.listdir(path)

for i in direct:
    document = Document()
    document.add_heading(i, 0)
    myfile = open('/path/to/read/from/'+i).read()
    myfile = re.sub(r'[^x00-x7F]+|x0c',' ', myfile) # remove all non-XML-compatible characters
    p = document.add_paragraph(myfile)
    document.save('/path/to/write/to/'+i+'.docx')
另一答案

你可以看看python-docx。它可以使用python创建Word文档,因此您可以将文本文件存储到单词中。见python-docx - what-it-can-do

以上是关于如何使用python将txt文件或PDF转换为Word doc?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 php 将 .docx、xslx、img、txt 等任何文件转换为 PDF 预览?

Python 将pdf转换成txt(不处理图片)

在app android中上传pdf或txt并转换为base64

如何批量的把WORD文件变为TXT文件???

使用 Python 将 PDF 转换为 HTML [重复]

将excel转换成pdf要用什么软件