爬虫学习

Posted 2021-01-06 ychj

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫学习相关的知识，希望对你有一定的参考价值。

1、requests 模块

　　res = requests.get("url")　　　　请求网页

　　res.text　　　　　　将获取的网页转化成文本格式

　　具体函数

　　res = requests.get("url")

　　res.text ====>获取文本

　　res.content ====>下载内容

　　　　　　　　举例　　　　img_res= rrequests.get(url)　　　　　=======>获取要下载的文件的url

　　　　　　　　　　　　　　name = "name"+".jpg"　　　　==========>文件命名成要下载的内容的格式一般url最后都有格式比如 jpg MP4 等

　　　　　　　　　　　　　　with open ("name",‘wb’) as f: 　　　　======》打开文件，以前面编写的名字为文件名一个下载文件要建立一个存放文件

　　　　　　　　　　　　　　　　f.write(img_res.content)　　　　=======>下载文件进入存放文件，自动转化成我们要下载的文件

　　res.encoding =====>解码方式

　　res.aparent_encoding ======>获取解码方式

　　res.status_code ======> 获取访问的状态码 200表示成功

　　　　　　　　　　　　　　　　　　　　　　　　404 表示访问不成功

　　　　　　　　　　　　　　　　　　　　　　　　300　　是否稳定网站

2、beautifulsoup

　　soup = beautifulsoup(res.text,features="lxml") =======>建立soup对象 lxml的效率是最高的

　　v1 = soup.find("div") =====>寻找第一个div 标签下的内容

　　v1 =soup.find(id = "il") ======>寻找id是il的标签里的内容

　　v1 =soup.find("div"，id="il") ========>寻找第一个id等于il的 div标签里的内容两个条件同时满足 id可以改成其他属性

　　v2 =soup.find_all("div") =====>寻找所有div 标签下的内容列表类型

　　v2 =soup.find_all(id = "il") ======>寻找所有 id是il的标签里的内容列表类型

　　v2 =soup.find_all("div"，id="il") ========>寻找所有的id等于il的 div标签里的内容两个条件同时满足列表类型

　　obj =v1　　获取标签内容

　　obj = v2[0] 获取标签内容

　　obj.text　　　　获取标签内容文本格式

　　obj.attrs　　　　获取标签属性内容

以上是关于爬虫学习的主要内容，如果未能解决你的问题，请参考以下文章