这是一个word文档,共有2000多项,如何批量提取里面的图片并且以对应的“姓名”一栏里的姓名命名?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了这是一个word文档,共有2000多项,如何批量提取里面的图片并且以对应的“姓名”一栏里的姓名命名?相关的知识,希望对你有一定的参考价值。

a. 可以方便的按顺序提取“姓名”一列到a.txt
b.将word文档 save as to html格式文档,相片将全部会被导出,相片顺序同word中的顺序
c.然后在a.txt的基础上修改成 重命名的批处理文件,即。
参考技术A 按住ctrl不放挨个选中就可以了 参考技术B 你可以换个软件批量导出。。。

Python 如何实现一键批量将 PDF 文档转 Word?

作者 | 欣一

来源 | Python爱好者集中营

无论是在工作还是学习当中,大家都会遇到这样一个问题,将“PDF当中的内容(文本和图片)转换为Word的格式”,也就是说从只读转换成可编辑的格式。网上绝大多数的工具也都是收费的,今天小编就给大家制作了一款批量将PDF文件转换为Word的神器,使用起来也是相当的方便。

实现效果

我们首先来看一下出来的效果,如下图所示


环境准备

用到的模块叫做pdf2docx,我们通过pip命令进行下载,如下


 
pip install pdf2docx

后续我们还可以为py文件打包,用到的库是pyinstaller


 
pip install pyinstaller


代码实现

我们先简单地实现将单个PDF文档转换成Word文档,代码如下


 
from pdf2docx import Converter
cv = Converter(r"pdf文件的路径")
cv.convert("test.docx", start=0,end=None)
cv.close()

那么上面的是单个PDF文件,要是涉及到是多个PDF文件,则需要用到遍历上传过来的每一个文件,用到for循环遍历


 
def startAction(self):
    output_path_1 = Path.joinpath(Path.home(), "Desktop")
    output_path_2 = str(output_path_1) + "\\\\output"
    if not os.path.exists(output_path_2):
        os.mkdir(output_path_2)


    for path_list in pdfPath_list:
        print("路径: ", path_list)
        name = path_list.split("/")[-1].split(".")[0]
        cv = Converter(path_list)
        cv.convert(output_path_2 + "\\\\.docx".format(name), start=0, end=None)
        cv.close()


    msg_box = QMessageBox(QMessageBox.Information, '完成', '提取完成', QMessageBox.Yes)
    msg_box.exec_()

上述的代码,我们首先将指定好输出的Word文档的位置,这里小编设置的是在桌面,然后通过for循环去遍历处理每一个PDF文档,当所有的步骤都完成的时候,提示我们已经完成了。

当然整个可视化界面当中还有一个上传文件的功能,代码如下


 
# 选择本地文件上传
def uploadFiles(self):
    global pdfPath_list  # 这里为了方便别的地方引用文件路径,将其设置为全局变量
    pdfPath_list, fileType = QFileDialog.getOpenFileNames(self.ui, "上传文件", r"路径", "*.pdf;;All Files(*)")
    # 显示所选文件的路径
    self.ui.lineEdit.setText(",".join(pdfPath_list))

整体的代码如下所示


 
from PySide2.QtWidgets import QApplication, QMessageBox, QFileDialog
from PySide2.QtUiTools import QUiLoader
from pdf2docx import Converter
from pathlib import Path
import os


class OCRQt:
    def __init__(self):
        self.ui = QUiLoader().load('pdf2word.ui')
        self.ui.pushButton.clicked.connect(self.uploadFiles)
        self.ui.pushButton_2.clicked.connect(self.startAction)


    def uploadFiles(self):
        ........
        ........


    def startAction(self):
        .......
        .......


if __name__ == '__main__':
    app = QApplication([])
    # 显示创建的界面
    MainWindow = OCRQt()  # 创建窗体对象
    MainWindow.ui.show()  # 显示窗体
    app.exit(app.exec_())  # 程序关闭时退出进程

往期回顾

迷惑行为大赏:在手中硬核「植入」芯片,只为解锁一辆车?

自从学了Pandas,妹子直呼很Nice!

亚马逊云科技的 AI 新引擎,如何助力企业应对“乌卡时代”?

为了在上海租房,我用python连夜爬了20000多条房源信息

分享
点收藏
点点赞
点在看

以上是关于这是一个word文档,共有2000多项,如何批量提取里面的图片并且以对应的“姓名”一栏里的姓名命名?的主要内容,如果未能解决你的问题,请参考以下文章

如何同时批量修改多个word文档内容

word怎么批量替换文字

如何在word文档中,在作文格子内批量输入文档!

如何从EXCEL中提取相应数据批量生成WORD文档

关于批量将word转化html问题

如何在word文档中,在作文格子内批量输入文档!