爬虫学习

Posted kuangkuangduangduang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫学习相关的知识,希望对你有一定的参考价值。

url:统一资源定位符

网址,a链接,可以根据url获取指定的数据

聚焦爬虫:根据特定的需求,从网上把数据去下来

爬虫实现的思路:

       网页的特点:每个网页有自己的url

       网页是由html组成的

       网页传输的时候使用http和https协议

爬取的思路:

       使用一个url

       写python代码,模拟浏览器发送http请求

       解析数据,提取出来指定的数据,通过一定的规则来进行。

urllib库

      作用:是python用来模拟http请求的库,他是python自带的库

       urllib.request         模拟浏览器发送求情

       urllib.parse            处理URL或是他们的参数

       urllib.error             抛出异常,用来处理发送请求时候出现的异常

       urllib.request.urlopen():           专门来处理url进行数据的读取

response.read():以二进制来进行数据的读取

网上能碰到的编码个是只有两种

         GBK

         UTF8

二进制转化成为字符串:decode()       相当于解码

字符串变为二进制:encode()               相当于编码

      

更多HTTP协议问题请参考

https://blog.csdn.net/gueter/article/details/1524447

以上是关于爬虫学习的主要内容,如果未能解决你的问题,请参考以下文章

总结整理 -- 爬虫技术(C#版)

什么是爬虫-Java网络爬虫系统性学习与实战

什么是爬虫-Java网络爬虫系统性学习与实战

转载 《Python爬虫学习系列教程》学习笔记

python爬虫之基础学习

《Python爬虫学习系列教程》学习笔记