Python3 爬虫神器总结

Posted 2021-09-05 Fu_Lin_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python3 爬虫神器总结相关的知识，希望对你有一定的参考价值。

关注我的公众号，有 PyCharmIDE 最新无码使用方案，更有含量资源下载！

前言

最近要学习python爬虫，发现无法动手，因为不知道咋解析数据，咋过滤自己需要的东东，所以一阵头大，茫茫然不知所终，于是百度，文档无所不用其极的乱找了一遍，算是大概心中有了一点基础，所以本篇将记录我所知道的爬虫需要的相关的神器，都是好东西，在日常其他的应用中也是可以用到的，下面看正文记录！

首先出场的就是请求页面的工具 requests ，它的作用主要是获取网页的 html 信息，当然在python3 中，你也可以使用 urllib.request , 下面简单分类介绍下这两个东东的区别

而 requests 库强大好用，所以我极力推荐的是使用此神器，requests 库的 github 地址：
https://github.com/requests/requests

win系统下打开 cmd ，使用如下指令安装 requests ：

pip install requests
或者：
easy_install requests

requests 库的基础方法如下：

方法	说明
requests.request()	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法,对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests. patch()	向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

还有其他方法就不一一列出了，有兴趣的可以去 requests官方中文教程地址自己去搜索了解一番吧！

Beautiful Soup 是 Python 的一个第三方库，主要帮助我们解析网页数据。

其具体安装其实可以去官网查看，下面列出pip的安装方式：

打开win系统的 cmd，使用 pip 或 easy_install 安装即可。

pip install beautifulsoup4
# 或者
easy_install beautifulsoup4

切记一定要是 beautifulsoup4，而不是beautifulsoup， beautifulsoup是表示版本3，而官网已经不再维护3版本了，安装默认的beautifulsoup就会报错，如下，我安装时的报错：

安装好 beautifulsoup4 后，我们还需要安装 lxml，这是解析 HTML 需要用到的依赖：

pip install lxml

Beautiful Soup 的使用方法也很简单, 不啰嗦，直接自己去 Beautiful Soup 官方中文教程去看吧，简单详细，可直接上手

暂时发现，拥有这两大神奇可以入门爬虫，后续会持续更新其他爬虫神器

以上是关于Python3 爬虫神器总结的主要内容，如果未能解决你的问题，请参考以下文章