爬虫学习

Posted ychj

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫学习相关的知识,希望对你有一定的参考价值。

1、requests   模块

  res = requests.get("url")    请求网页

  res.text      将获取的网页转化成文本格式

  具体函数

  res = requests.get("url")

  res.text  ====>获取文本

  res.content   ====>下载内容

        举例    img_res= rrequests.get(url)     =======>获取要下载的文件的url

              name  =  "name"+".jpg"    ==========>文件命名成要下载的内容的格式  一般url最后 都有格式 比如  jpg    MP4   等

              with open   ("name",‘wb’)  as  f:     ======》打开文件,以前面  编写的名字为文件名     一个下载文件要建立一个存放文件

                f.write(img_res.content)    =======>下载文件进入存放文件,自动转化成我们要下载的文件

  res.encoding  =====>解码方式

  res.aparent_encoding   ======>获取解码方式

  res.status_code    ======>  获取访问的状态码     200表示成功

                        404  表示访问不成功

                        300  是否 稳定网站

 

2、beautifulsoup

  soup = beautifulsoup(res.text,features="lxml")   =======>建立soup对象    lxml的效率是最高的

  v1 = soup.find("div")    =====>寻找第一个div  标签下的内容

  v1 =soup.find(id = "il")  ======>寻找id是il的标签里的内容  

  v1 =soup.find("div",id="il")  ========>寻找第一个id等于il的  div标签 里的内容   两个条件同时满足     id可以改成其他属性

 

  v2 =soup.find_all("div")    =====>寻找所有div  标签下的内容     列表类型

  v2 =soup.find_all(id = "il")  ======>寻找所有   id是il的标签里的内容   列表类型

  v2 =soup.find_all("div",id="il")  ========>寻找所有的id等于il的  div标签 里的内容   两个条件同时满足     列表类型

  obj =v1  获取标签内容

  obj = v2[0]    获取标签内容

  obj.text    获取标签内容文本格式

  obj.attrs    获取标签  属性内容

 

 

 

 

 

 

 

                        

以上是关于爬虫学习的主要内容,如果未能解决你的问题,请参考以下文章

总结整理 -- 爬虫技术(C#版)

什么是爬虫-Java网络爬虫系统性学习与实战

什么是爬虫-Java网络爬虫系统性学习与实战

转载 《Python爬虫学习系列教程》学习笔记

python爬虫之基础学习

《Python爬虫学习系列教程》学习笔记