Python 自动化爬虫利器 Playwright

Posted Yxh_blogs

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 自动化爬虫利器 Playwright相关的知识,希望对你有一定的参考价值。

Python 自动化爬虫利器 Playwright

Python Playwright 是一个基于 Node.js 的自动化测试库,它支持多种浏览器(Chrome、Firefox、Safari、Edge等),并提供了一些方便的 API 来模拟用户在浏览器中的行为。本篇将介绍 Python Playwright 库的基本使用教程。

安装

首先需要安装 Python Playwright 库,可以通过 pip 命令进行安装:

pip install playwright

安装完成后,还需要下载与所需版本的浏览器对应的浏览器驱动。

以 Chrome 浏览器为例,在 Python 环境下运行以下命令:

python -m playwright install

执行该命令后,会自动下载与当前的 Chrome 浏览器版本匹配的 Chrome 驱动程序。

使用

使用 Python Playwright 可以实现自动登录、爬取网页信息、自动化测试等功能。下面我们以自动打开网站并获取标题为例,介绍 Python Playwright 的基本用法。

from playwright.sync_api import Playwright, sync_playwright

# 启动浏览器
with sync_playwright() as p:
    browser = p.chromium.launch(headless=False)
    page = browser.new_page()

    # 打开指定网页
    page.goto(\'https://www.baidu.com/\')

    # 获取网页标题
    title = page.title()
    print(title)

    # 关闭浏览器
    browser.close()

代码解释:

  1. 导入 Playwright 库和 sync_playwright 方法。
  2. 使用 sync_playwright 方法启动浏览器。
  3. 使用 browser.new_page() 方法创建新的浏览器页面。
  4. 使用 page.goto(url) 方法打开指定网页。
  5. 使用 page.title() 方法获取网页标题。
  6. 使用 browser.close() 方法关闭浏览器。

小结

Python Playwright 是一个功能强大的自动化测试库,它可以模拟用户在浏览器中的行为,支持多种浏览器,并提供了一些便捷的 API,让我们可以更加方便地操作浏览器。本篇介绍了 Python Playwright 库的基本使用方法,希望能对你有所帮助。

微软开源最强Python自动化神器Playwright 不用写一行代码

相信玩过爬虫的朋友都知道selenium,一个自动化测试的神器工具。写个Python自动化脚本解放双手基本上是常规的操作了,爬虫爬不了的,就用自动化测试凑一凑。

虽然selenium有完备的文档,但也需要一定的学习成本,对于一个纯小白来讲还是有些门槛的。

最近,微软开源了一个项目叫「playwright-python」,简直碉堡了!这个项目是针对Python语言的纯自动化工具,连代码都不用写,就能实现自动化功能。

可能你会觉得有点不可思议,但它就是这么厉害。下面我们一起看下这个神器。

1. Playwright介绍

Playwright是一个强大的Python库,仅用一个API即可自动执行ChromiumFirefoxWebKit等主流浏览器自动化操作,并同时支持以无头模式、有头模式运行。

Playwright提供的自动化技术是绿色的、功能强大、可靠且快速,支持LinuxMac以及Windows操作系统。

2. Playwright使用

安装

Playwright的安装非常简单,两步走。

# 安装playwright库
pip install playwright

# 安装浏览器驱动文件(安装过程稍微有点慢)
python -m playwright install

上面两个pip操作分别安装:

  • 安装Playwright依赖库,需要Python3.7+

  • 安装Chromium、Firefox、WebKit等浏览器的驱动文件

录制

使用Playwright无需写一行代码,我们只需手动操作浏览器,它会录制我们的操作,然后自动生成代码脚本。

下面就是录制的命令codegen,仅仅一行。

# 命令行键入 --help 可看到所有选项
python -m playwright codegen

codegen的用法可以使用--help查看,如果简单使用就是直接在命令后面加上url链接,如果有其他需要可以添加options

python -m playwright codegen --help
Usage: index codegen [options] [url]

open page and generate code for user actions

Options:
  -o, --output <file name>  saves the generated script to a file
  --target <language>       language to use, one of javascript, python, python-async, csharp (default: "python")
  -h, --help                display help for command

Examples:

  $ codegen
  $ codegen --target=python
  $ -b webkit codegen https://example.com

options含义:

  • -o:将录制的脚本保存到一个文件

  • –target:规定生成脚本的语言,有JSPython两种,默认为Python

  • -b:指定浏览器驱动

比如,我要在baidu.com搜索,用chromium驱动,将结果保存为my.pypython文件。

python -m playwright codegen --target python -o 'my.py' -b chromium https://www.baidu.com

命令行输入后会自动打开浏览器,然后可以看见在浏览器上的一举一动都会被自动翻译成代码,如下所示。

结束后自动关闭浏览器,保存生成的自动化脚本到py文件。

from playwright import sync_playwright

def run(playwright):
    browser = playwright.chromium.launch(headless=False)
    context = browser.newContext()

    # Open new page
    page = context.newPage()

    page.goto("https://www.baidu.com/")

    page.click("input[name=\\"wd\\"]")

    page.fill("input[name=\\"wd\\"]", "jingdong")

    page.click("text=\\"京东\\"")
  
    # Click //a[normalize-space(.)='京东JD.COM官网 多快好省 只为品质生活']
    with page.expect_navigation():
        with page.expect_popup() as popup_info:
            page.click("//a[normalize-space(.)='京东JD.COM官网 多快好省 只为品质生活']")
        page1 = popup_info.value
    # ---------------------
    context.close()
    browser.close()

with sync_playwright() as playwright:
    run(playwright)

此外,playwright还提供了同步和异步的API接口,文档如下。

链接:microsoft.github.io/playwright-…

同步

下面示例代码:依次打开三个浏览器,前往baidu搜索,截图后退出。

from playwright import sync_playwright

with sync_playwright() as p:
    for browser_type in [p.chromium, p.firefox, p.webkit]:
        browser = browser_type.launch()
        page = browser.newPage()
        page.goto('https://baidu.com/')
        page.screenshot(path=f'example-browser_type.name.png')
        browser.close()

异步

异步操作可结合asyncio同时进行三个浏览器操作。

import asyncio
from playwright import async_playwright

async def main():
    async with async_playwright() as p:
        for browser_type in [p.chromium, p.firefox, p.webkit]:
            browser = await browser_type.launch()
            page = await browser.newPage()
            await page.goto('http://baidu.com/')
            await page.screenshot(path=f'example-browser_type.name.png')
            await browser.close()

asyncio.get_event_loop().run_until_complete(main())

移动端

更厉害的是,playwright还可支持移动端的浏览器模拟。 下面是官方文档提供的一段代码,模拟在给定地理位置上手机iphone 11 pro上的Safari浏览器,首先导航到maps.google.com,然后执行定位并截图。

from playwright import sync_playwright

with sync_playwright() as p:
    iphone_11 = p.devices['iPhone 11 Pro']
    browser = p.webkit.launch(headless=False)
    context = browser.newContext(
        **iphone_11,
        locale='en-US',
        geolocation= 'longitude': 12.492507, 'latitude': 41.889938 ,
        permissions=['geolocation']
    )
    page = context.newPage()
    page.goto('https://maps.google.com')
    page.click('text="Your location"')
    page.screenshot(path='colosseum-iphone.png')
    browser.close()

另外,还可以配合pytest插件一起使用,感兴趣可以自己试一下。

3. 总结

playwright相比已有的自动化测试工具有很多优势,比如:

  • 跨浏览器,支持Chromium、Firefox、WebKit
  • 跨操作系统,支持Linux、Mac、Windows
  • 可提供录制生成代码功能,解放双手
  • 可用于移动端

目前存在的缺点就是生态和文档还不是非常完备,比如没有API中文文档、没有较好的教程和示例供学习。不过相信,随着知道的人越来越多,未来会越来越好。

以上是关于Python 自动化爬虫利器 Playwright的主要内容,如果未能解决你的问题,请参考以下文章

微软开源最强Python自动化神器Playwright!不用写一行代码!

微软开源最强Python自动化神器Playwright 不用写一行代码

微软开源最强Python自动化神器Playwright,不用写一行代码

微软开源最强Python自动化神器Playwright 不用写一行代码

Python爬虫利器:Selenium的用法

python selenium 自动化爬虫与测试网页利器