爬虫学习
Posted ychj
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫学习相关的知识,希望对你有一定的参考价值。
1、requests 模块
res = requests.get("url") 请求网页
res.text 将获取的网页转化成文本格式
具体函数
res = requests.get("url")
res.text ====>获取文本
res.content ====>下载内容
举例 img_res= rrequests.get(url) =======>获取要下载的文件的url
name = "name"+".jpg" ==========>文件命名成要下载的内容的格式 一般url最后 都有格式 比如 jpg MP4 等
with open ("name",‘wb’) as f: ======》打开文件,以前面 编写的名字为文件名 一个下载文件要建立一个存放文件
f.write(img_res.content) =======>下载文件进入存放文件,自动转化成我们要下载的文件
res.encoding =====>解码方式
res.aparent_encoding ======>获取解码方式
res.status_code ======> 获取访问的状态码 200表示成功
404 表示访问不成功
300 是否 稳定网站
2、beautifulsoup
soup = beautifulsoup(res.text,features="lxml") =======>建立soup对象 lxml的效率是最高的
v1 = soup.find("div") =====>寻找第一个div 标签下的内容
v1 =soup.find(id = "il") ======>寻找id是il的标签里的内容
v1 =soup.find("div",id="il") ========>寻找第一个id等于il的 div标签 里的内容 两个条件同时满足 id可以改成其他属性
v2 =soup.find_all("div") =====>寻找所有div 标签下的内容 列表类型
v2 =soup.find_all(id = "il") ======>寻找所有 id是il的标签里的内容 列表类型
v2 =soup.find_all("div",id="il") ========>寻找所有的id等于il的 div标签 里的内容 两个条件同时满足 列表类型
obj =v1 获取标签内容
obj = v2[0] 获取标签内容
obj.text 获取标签内容文本格式
obj.attrs 获取标签 属性内容
以上是关于爬虫学习的主要内容,如果未能解决你的问题,请参考以下文章