Python3 爬虫神器总结

Posted Fu_Lin_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python3 爬虫神器总结相关的知识,希望对你有一定的参考价值。

关注我的公众号,有 PyCharmIDE 最新无码使用方案,更有含量资源下载!

前言

最近要学习python爬虫,发现无法动手,因为不知道咋解析数据,咋过滤自己需要的东东,所以一阵头大,茫茫然不知所终,于是百度,文档无所不用其极的乱找了一遍,算是大概心中有了一点基础,所以本篇将记录我所知道的爬虫需要的相关的神器,都是好东西,在日常其他的应用中也是可以用到的,下面看正文记录!

请求神器requests

首先出场的就是请求页面的工具 requests ,它的作用主要是获取网页的 html 信息, 当然在python3 中,你也可以使用 urllib.request , 下面简单分类介绍下这两个东东的区别

  • urllib 库是 Python 内置的,无需我们额外安装,只要安装了 Python 就可以使用这个库。
  • requests 库是第三方库,需要我们自己安装。

而 requests 库强大好用,所以我极力推荐的是使用此神器,requests 库的 github 地址:
https://github.com/requests/requests

requests安装

win系统下打开 cmd ,使用如下指令安装 requests :

pip install requests
或者:
easy_install requests

requests简单示例

requests 库的基础方法如下:

方法说明
requests.request()构造一个请求,支撑以下各方法的基础方法
requests.get()获取HTML网页的主要方法,对应于HTTP的GET
requests.head()获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post()向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put()向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests. patch()向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete()向HTML页面提交删除请求,对应于HTTP的DELETE

还有其他方法就不一 一列出了,有兴趣的可以去 requests官方中文教程地址 自己去搜索了解一番吧!

解析申请 Beautiful Soup

Beautiful Soup 是 Python 的一个第三方库,主要帮助我们解析网页数据。

Beautiful Soup安装

其具体安装其实可以去官网查看,下面列出pip的安装方式:

打开win系统的 cmd,使用 pip 或 easy_install 安装即可。

pip install beautifulsoup4
# 或者
easy_install beautifulsoup4

切记一定要是 beautifulsoup4, 而不是beautifulsoup, beautifulsoup是表示版本3,而官网已经不再维护3版本了,安装默认的beautifulsoup就会报错,如下,我安装时的报错:

lxml安装

安装好 beautifulsoup4 后,我们还需要安装 lxml,这是解析 HTML 需要用到的依赖:

pip install lxml

Beautiful Soup 的使用方法也很简单, 不啰嗦,直接自己去 Beautiful Soup 官方中文教程 去看吧, 简单详细,可直接上手

暂时发现,拥有这两大神奇可以入门爬虫,后续会持续更新其他爬虫神器

以上是关于Python3 爬虫神器总结的主要内容,如果未能解决你的问题,请参考以下文章

scrapy按顺序启动多个爬虫代码片段(python3)

scrapy主动退出爬虫的代码片段(python3)

python3 爬虫神器pyquery的使用实例

python常用代码片段总结

微软开源最强Python自动化神器Playwright!不用写一行代码!

微软开源最强Python自动化神器Playwright!不用写一行代码!