Python实现自动操作网页导出数据(不是爬虫)

Posted &nbps

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python实现自动操作网页导出数据(不是爬虫)相关的知识,希望对你有一定的参考价值。

前言:如题,此教程不是爬虫,因为我遇到的这个情况爬虫好像做不了,因为导出的数据有部分不在网页内,是从数据库取的值;

场景说明:在系统内有多个列表(见下图左边红框),每个列表下有N条数据,此时要每个列表点开,然后点击“导出”按钮,将数据导出来;

     人工手动点击太麻烦,我们要做的就是把这部分完全重复的工作让代码来自动执行;

实现逻辑:主要原理就是模拟鼠标点击及键盘输入,实现自动导出;

 

 

 

1.首先需要引入两个包,本来只需要引入pynput包的,由于这个包内的函数无法操作点击浏览器弹出的下载框,所以改用了PyAutoGUI包;

 

 

 

 

2.先把刚刚安装的包引进来,然后开始获取电脑屏幕的分辨率;

from pynput.mouse import Button, Controller
import time
import pyautogui
import tkinter

#获取当前屏幕分辨率
winpx = tkinter.Tk()
winx = winpx.winfo_screenwidth()#获取屏幕X轴像素
winy = winpx.winfo_screenheight()#获取屏幕y轴像素

 

3.获取你每次需要点击的坐标值;举例:我完成一套流程需要点击的地方:

  1.点击楼栋列表;2.点击导出;3.跳转下载页面点击下载链接;4.弹出下载框点击保存>>选择另存为;5.弹出保存框,点击文件名;6.点击确定;7.点击关闭浏览器下载页签;

以上这些需要点击的地方,都是需要给定一个坐标来控制;

mouse = Controller()#键鼠控制器
#楼栋坐标
x1 = 340
y1 = 590
#导出按钮坐标
x2 = 1772
y2 = 553
#下载链接坐标
x3 = 1000
y3 = 170
#保存按钮坐标
x4 = 1310
y4 = 1020
#保存文件名称坐标
x5 = 1105
y5 = 670
#弹窗确定按钮坐标
x6 = 1666
y6 = 740
#关闭页面按钮坐标
x7 = 590
y7 = 66
#控制循环
i = 1

 

 

4.定义每次点击需要调用的函数;

 

#获取当前指针位置
def getcursor():
    #mouse = Controller()
    # print(mouse.position)
    #time.sleep(1)  # 等待1秒继续往下执行
    print(\'当前指针位置:{0}\'.format(mouse.position))

#指针移动到第一个楼栋并点击,点击下一楼栋每次下移20px
def clickBuilding(x1,y1):
    if(y1 > 1010):
        pyautogui.moveTo(454, 999, 1)
        pyautogui.click(button=\'left\',clicks=3, interval=0.1)#点击三次滚动条
        y1 = y1 - 100#滚动之后重新定位坐标,滚动条每隐藏一条数据就-20px
        pyautogui.moveTo(x1,y1,1)
        pyautogui.click(button=\'left\')
        print(\'点击楼栋信息:{0}\'.format(mouse.position))
        time.sleep(1)
    else:
        pyautogui.moveTo(x1, y1, 1)
        pyautogui.click(button=\'left\')
        print(\'点击楼栋信息:{0}\'.format(mouse.position))
        time.sleep(1)

#指针移动到导出按钮上并点击导出
def clickExport(x2,y2):
    pyautogui.moveTo(x2,y2,1)
    pyautogui.click(button=\'left\')
    print(\'点击导出按钮:{0}\'.format(mouse.position))
    time.sleep(3)

#点击下载核算辅助文件
def clickDownloadLink(x3,y3):
    pyautogui.moveTo(x3,y3,1)
    pyautogui.click(button=\'left\')
    print(\'点击下载链接:{0}\'.format(mouse.position))
    mouse.click(Button.left,1)
    time.sleep(3)

#点击保存按钮选择另存为
def saveAs(x4,y4):
    pyautogui.moveTo(x4,y4,1)
    pyautogui.click(button=\'left\')
    #相对于当前位置移动(x,y)个距离
    pyautogui.move(90,-21,0.3)
    pyautogui.click(button=\'left\')
    print(\'现已移动到:{0}\'.format(mouse.position))
    #mouse.click(Button.left, 1)
    time.sleep(1)

#调整文件名点击保存
def adjustmentFileName(x5,y5,x6,y6,i):
    pyautogui.moveTo(x5,y5,1)
    pyautogui.click(button=\'left\')
    pyautogui.write(str(i))#interval=0.1,此参数用于输入多个字符时控制时间间隔
    print(\'文件名称:辅助核算对照信息1.xls\')
    time.sleep(1)
    pyautogui.moveTo(x6,y6,0.5)
    pyautogui.click(button=\'left\')

def closePage(x7,y7):
    pyautogui.moveTo(x7, y7, 1)
    pyautogui.click(button=\'left\')
    print(\'页面已关闭!\')

 

 

 

5.用if先判断是否满足条件,满足条件就执行for循环开始自动导出吧;

#开始
if (winx == 1920 and winy == 1080):
    print(\'当前屏幕分辨率为:\' + str(winx) + \',\' + str(winy))
    getcursor()
    # 循环调用函数
    for i in range(1, 9):  # 有多少要导的楼栋range()内就填1,n+1
        clickBuilding(x1, y1)
        clickExport(x2, y2)
        clickDownloadLink(x3, y3)
        saveAs(x4, y4)
        adjustmentFileName(x5, y5, x6, y6, i)
        closePage(x7, y7)
        y1 = y1 + 20 #每循环一次,y1就增加20像素,鼠标就会下移20像素点击列表内下一个楼栋
        ++i
else:
    print("当前电脑分辨率不为1920*1080,需要重新设置参数!")

 

 

下面是总的代码:

from pynput.mouse import Button, Controller
import time
import pyautogui
import tkinter

#获取当前屏幕分辨率
winpx = tkinter.Tk()
winx = winpx.winfo_screenwidth()#获取屏幕X轴像素
winy = winpx.winfo_screenheight()#获取屏幕y轴像素

mouse = Controller()#键鼠控制器
#楼栋坐标
x1 = 340
y1 = 590
#导出按钮坐标
x2 = 1772
y2 = 553
#下载链接坐标
x3 = 1000
y3 = 170
#保存按钮坐标
x4 = 1310
y4 = 1020
#保存文件名称坐标
x5 = 1105
y5 = 670
#弹窗确定按钮坐标
x6 = 1666
y6 = 740
#关闭页面按钮坐标
x7 = 590
y7 = 66
#控制循环
i = 1

#获取当前指针位置
def getcursor():
    #mouse = Controller()
    # print(mouse.position)
    #time.sleep(1)  # 等待1秒继续往下执行
    print(\'当前指针位置:{0}\'.format(mouse.position))

#指针移动到第一个楼栋并点击,点击下一楼栋每次下移20px
def clickBuilding(x1,y1):
    if(y1 > 1010):
        pyautogui.moveTo(454, 999, 1)
        pyautogui.click(button=\'left\',clicks=3, interval=0.1)#点击三次滚动条
        y1 = y1 - 100#滚动之后重新定位坐标,滚动条每隐藏一条数据就-20px
        pyautogui.moveTo(x1,y1,1)
        pyautogui.click(button=\'left\')
        print(\'点击楼栋信息:{0}\'.format(mouse.position))
        time.sleep(1)
    else:
        pyautogui.moveTo(x1, y1, 1)
        pyautogui.click(button=\'left\')
        print(\'点击楼栋信息:{0}\'.format(mouse.position))
        time.sleep(1)

#指针移动到导出按钮上并点击导出
def clickExport(x2,y2):
    pyautogui.moveTo(x2,y2,1)
    pyautogui.click(button=\'left\')
    print(\'点击导出按钮:{0}\'.format(mouse.position))
    time.sleep(3)

#点击下载核算辅助文件
def clickDownloadLink(x3,y3):
    pyautogui.moveTo(x3,y3,1)
    pyautogui.click(button=\'left\')
    print(\'点击下载链接:{0}\'.format(mouse.position))
    mouse.click(Button.left,1)
    time.sleep(3)

#点击保存按钮选择另存为
def saveAs(x4,y4):
    pyautogui.moveTo(x4,y4,1)
    pyautogui.click(button=\'left\')
    #相对于当前位置移动(x,y)个距离
    pyautogui.move(90,-21,0.3)
    pyautogui.click(button=\'left\')
    print(\'现已移动到:{0}\'.format(mouse.position))
    #mouse.click(Button.left, 1)
    time.sleep(1)

#调整文件名点击保存
def adjustmentFileName(x5,y5,x6,y6,i):
    pyautogui.moveTo(x5,y5,1)
    pyautogui.click(button=\'left\')
    pyautogui.write(str(i))#interval=0.1,此参数用于输入多个字符时控制时间间隔
    print(\'文件名称:辅助核算对照信息1.xls\')
    time.sleep(1)
    pyautogui.moveTo(x6,y6,0.5)
    pyautogui.click(button=\'left\')

def closePage(x7,y7):
    pyautogui.moveTo(x7, y7, 1)
    pyautogui.click(button=\'left\')
    print(\'页面已关闭!\')

#开始
if (winx == 1920 and winy == 1080):
    print(\'当前屏幕分辨率为:\' + str(winx) + \',\' + str(winy))
    getcursor()
    # 循环调用函数
    for i in range(1, 9):  # 有多少要导的楼栋range()内就填1,n+1
        clickBuilding(x1, y1)
        clickExport(x2, y2)
        clickDownloadLink(x3, y3)
        saveAs(x4, y4)
        adjustmentFileName(x5, y5, x6, y6, i)
        closePage(x7, y7)
        y1 = y1 + 20 #每循环一次,y1就增加20像素,鼠标就会下移20像素点击列表内下一个楼栋
        ++i
else:
    print("当前电脑分辨率不为1920*1080,需要重新设置参数!")

 

最后就是将导出来的文件合成为一个文件:

以上是关于Python实现自动操作网页导出数据(不是爬虫)的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫安装 pyQuery 遇到的坑 Could not find function xmlCheckVersion in library libxml2. Is libxml2 ins(代

爬虫基础

爬虫基础

如何用python实现爬虫抓取网页时自动翻页

Python爬虫技术(从网页获取图片)+HierarchicalClustering层次聚类算法,实现自动从网页获取图片然后根据图片色调自动分类—Jason niu

爬虫基本原理代理