python读取word文档

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python读取word文档相关的知识,希望对你有一定的参考价值。

周末需要做一个统计word文档字数的问题,刚开始以为很简单,因为之前做过excel表格相关的任务,所以认为利用扩展模块应该比较简单。

通过搜索,确实搜到了一个python操作word的模块,python-docx 

通过命令安装:pip install python-docx

使用代码示例:

#读取docx中的文本代码示例
import docx
#获取文档对象
file=docx.Document("D:\\\\temp\\\\word.docx")
print("段落数:"+str(len(file.paragraphs)))#段落数为13,每个回车隔离一段

#输出每一段的内容
for para in file.paragraphs:
  print(para.text)

#输出段落编号及段落内容
for i in range(len(file.paragraphs)):
  print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

拿过来自己试了一下,却报了以下的错误:

技术分享

拿异常上百度搜了一下,大致的意思是python-docx这个模块貌似只支持docx文件,不支持doc。

好吧,尝试另一种方法,使用antiword(这里使用的linux环境)

先下载安装,地址:http://www.winfield.demon.nl/

使用tar解压之后,分别用make  和 make install命令进行安装

切换到安装的目录后,使用“./antiword” + doc文件名即可读取文件内容。

技术分享

 









以上是关于python读取word文档的主要内容,如果未能解决你的问题,请参考以下文章

python读取word每一行

读取word文档并提取和写入数据(基于python 3.6)

用php 读取word 文档内容 比如:word文档为试题等等

用php读取word文档内容

python 不能read word文件?

PHP实现对word文档的读取