爬虫学习

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫学习相关的知识，希望对你有一定的参考价值。

url：统一资源定位符

网址，a链接，可以根据url获取指定的数据

聚焦爬虫：根据特定的需求，从网上把数据去下来

爬虫实现的思路：

网页的特点：每个网页有自己的url

网页是由html组成的

网页传输的时候使用http和https协议

爬取的思路：

使用一个url

写python代码，模拟浏览器发送http请求

解析数据，提取出来指定的数据，通过一定的规则来进行。

urllib库

作用：是python用来模拟http请求的库，他是python自带的库

urllib.request 模拟浏览器发送求情

urllib.parse 处理URL或是他们的参数

urllib.error 抛出异常，用来处理发送请求时候出现的异常

urllib.request.urlopen(): 专门来处理url进行数据的读取

response.read()：以二进制来进行数据的读取

网上能碰到的编码个是只有两种

GBK

UTF8

二进制转化成为字符串：decode() 相当于解码

字符串变为二进制：encode() 相当于编码

更多HTTP协议问题请参考

https://blog.csdn.net/gueter/article/details/1524447

以上是关于爬虫学习的主要内容，如果未能解决你的问题，请参考以下文章