读取word文档并提取和写入数据(基于python 3.6)

Posted Moucong

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了读取word文档并提取和写入数据(基于python 3.6)相关的知识,希望对你有一定的参考价值。

#!/usr/bin/python3
# -*- coding: utf-8 -*-
# @File : delete_file
# @Author : moucong
# @Date : 2018/4/1 16:33
# @Software: PyCharm

#读取docx中的文本代码示例
import docx
import re

#获取文档
file=docx.Document("E:\\python_word\\word.docx")
print("段落数:"+str(len(file.paragraphs))) #输出段落数
file_word = docx.Document()

#输出每一段的内容
for para in file.paragraphs:
print(para.text)

#输出段落编号及段落内容
para_data = []
for i in range(len(file.paragraphs)):
# for j in map(lambda x:x.split(‘ ‘),file.paragraphs[i].text):
para_single = file.paragraphs[i].text.split(‘ ‘)
while ‘‘ in para_single: # 移除空格
para_single.remove(‘‘)
# para_data.append(para_single)
for data_number in range(len(para_single)):
data_num = re.findall(r"\d", para_single[data_number])
data_num = ‘‘.join(data_num)
para_data.append(data_num + ‘ ‘)
file_word.add_paragraph(para_data)
file_word.save("E:\\python_word\\number.docx")




































以上是关于读取word文档并提取和写入数据(基于python 3.6)的主要内容,如果未能解决你的问题,请参考以下文章

利用Python将excel数据读取到word表格

Python创建word文档并写入内容

提取Word文档中的Excel附件并识别文件名保存

运用好Python处理文档的小技巧,让你成为女神心中superstar!

关于C#从Word文件中提取内容(包括样式文字,图片,公式,表格)等信息,解析分字段写入数据库的问题。

Python实现自动化办公:Python对Word文档的基本操作(python-docx)