python读取word文档内容

Posted 2023-05-04

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python读取word文档内容相关的知识，希望对你有一定的参考价值。

python如何逐行读取word文档内容使用的是win32com库

参考技术A import fnmatch, os, sys, win32com.client

readpath=r'D:\123'

wordapp = win32com.client.gencache.EnsureDispatch("Word.Application")
try:
for path, dirs, files in os.walk(readpath):
for filename in files:
if not fnmatch.fnmatch(filename, '*.docx'):continue
doc = os.path.abspath(os.path.join(path,filename))
print 'processing %s...' % doc
wordapp.Documents.Open(doc)
docastext = doc[:-4] + 'txt'
wordapp.ActiveDocument.SaveAs(docastext,FileFormat=win32com.client.constants.wdFormatText)
wordapp.ActiveDocument.Close()
finally:
wordapp.Quit()
print 'end'

f=open(r'd:\123\test.txt','r')
for line in f.readlines():
print line.decode('gbk')
f.close()追问

能否直接读取word文档内容吗？

我在其他地方也看到了先将word保存为txt再读取，为何要这样操作那？

追答

因为word并不是纯文本（不存在一行一行的概念），尽管你可能只输入了文本，但不能认为它就是文本

本回答被提问者采纳

怎么把python输出为word

程序导出word文档的方法
将web/html内容导出为world文档，再java中有很多解决方案，比如使用Jacob、Apache POI、Java2Word、iText等各种方式，以及使用freemarker这样的模板引擎这样的方式。php中也有一些相应的方法，但在python中将web/html内容生成world文档的方法是很少的。其中最不好解决的就是如何将使用js代码异步获取填充的数据，图片导出到word文档中。
1. unoconv
功能：
1.支持将本地html文档转换为docx格式的文档，所以需要先将网页中的html文件保存到本地，再调用unoconv进行转换。转换效果也不错，使用方法非常简单。

?

\# 安装

sudo apt-get install unoconv
\# 使用
unoconv -f pdf *.odt
unoconv -f doc *.odt
unoconv -f html *.odt

缺点：
1.只能对静态html进行转换，对于页面中有使用ajax异步获取数据的地方也不能转换（主要是要保证从web页面保存下来的html文件中有数据）。

2.只能对html进行转换，如果页面中有使用echarts,highcharts等js代码生成的图片，是无法将这些图片转换到word文档中；

3.生成的word文档内容格式不容易控制。

2. python-docx
功能：
1.python-docx是一个可以读写word文档的python库。

使用方法：
1.获取网页中的数据，使用python手动排版添加到word文档中。参考技术A 可以使用win32com或者python-docx模块

以上是关于python读取word文档内容的主要内容，如果未能解决你的问题，请参考以下文章