小5聊Python3 使用selenium模块实现简单爬虫系列一

Posted 小5聊

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了小5聊Python3 使用selenium模块实现简单爬虫系列一相关的知识,希望对你有一定的参考价值。

第一次听说Python还是在工作的时候,还是一位女生在用,当时她说可以用来处理excel文档,特别是一些统计分析。第二次让我真正进入python世界,还是在一次C站举办的大赛上。聊聊你是因为什么机缘巧合进入到python圈的呢?不妨留言说说

本期主要是聊聊,我接触到的selenium模块实现简单的爬虫效果

爬虫输出标题效果

 

 

1、开发环境

1)windows 11 家庭中文版

说实在的,win11真心不够稳定和好用,特别是改了那个鼠标右键出菜单那个,非常不习惯

 

 2)Visual Studio 2022 社区版

3)Python 3.9

 2、爬虫场景

1)什么是爬虫

一般指网络爬虫,自动获取网页内容的程序

2)先简单设置一个爬虫场景

当程序运行后,能够爬取C站首页推荐区域的前10条资讯标题

3、小知识点

1)函数和模块

python本身内置了一些常用函数,以及一些内置的模块,模块下又有很多函数方法

比如:math和random模块分别包含了数学运算相关的函数以及随机数相关的函数

2)引入模块必不可少

3)import和from import的区别

两者都可以为导入目标重新命名

import 具体到模块,不能具体到函数和类等

from import可以具体到类、函数

4、爬虫编码分析

1)Selenium

主要用于Web应用程序的自动化测试工具包

2)Webdriver

调用浏览器的API(程序接口),并返回响应结果的工具,这个工具包在Selenium包里面

3)安装模块

 

 4)对目标内容进行分析

爬虫目标的标题为span标签,且class为blog-text

 

5)下载chromedriver.exe

点击下载-chromedriver.exe,尽量放到英文目录

6)常见问题 - 编码无法识别

在脚本开头写上:# coding=gb2312 或者 # coding=utf-8

7)'WebDriver' object has no attribute 

可能已经使用了新的写法

5、完整代码

# coding=gb2312
from selenium import webdriver
from selenium.webdriver.common.by import By
# 导入selenium自动化模块的子模块-webdriver-浏览器驱动模块

# chrom谷歌浏览器方式打开指定网站
driver = webdriver.Chrome()
driver.get("https://blog.csdn.net")
 
# 获取返回多个span标签对象
spans = driver.find_elements(by=By.CLASS_NAME,value='blog-text')

for span in spans:
    # 标题文本
    print(span.text)

以上是关于小5聊Python3 使用selenium模块实现简单爬虫系列一的主要内容,如果未能解决你的问题,请参考以下文章

小5聊Winform窗体遍历进程提示拒绝访问以及32位无法访问64位模块解决方法

python3+selenium实现Web自动化5:文件上传,Cookie操作,调用 JavaScript,窗口截图

sele nium 模块

小5聊Notepad++运行C++语言以及安装g++

Python3 使用selenium库登陆知乎并保存cookie为本地文件

Python3+Selenium2完整的自动化测试实现之旅:自动化测试框架Python面向对象以及POM设计模型简介