爬取拉勾网

Posted truedragon

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬取拉勾网相关的知识,希望对你有一定的参考价值。

爬取的url:https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=

技术图片

 

 爬取职位名称,薪水,公司,待遇这些

抓包,找到信息加载为一个post请求返回

技术图片

 

查看他携带的数据,里面是关键字(python)和页数(pn),这个sid每次都会改变,经测试,该post请求主要检查的是cookies,这个sid不需要(一次一次试出来的)

 技术图片

 

 既然需要携带cookie,那我们首先建立一个session连接,获得cookie

1 s.get(url, headers=headers, timeout=3)
2 cookie = s.cookies

之后我们再用这个cookie构造post请求

1 response = s.post(url2, data=data, headers=headers, cookies=cookie)
2 html = response.text

成功返回json数据,之后解析json取出我们需要的数据就可以了

 1 json_data = json.loads(html)
 2 resulet = json_data[content][positionResult][result]
 3 for datas in resulet:
 4     positionName = datas[positionName]
 5     companyShortName = datas[companyShortName]
 6     companySize = datas[companySize]
 7     salary = datas[salary]
 8     workYear = datas[workYear]
 9     positionAdvantage = datas[positionAdvantage]
10     city = datas[city]
11     firstType = datas[firstType]
12     secondType = datas[secondType]

最后将数据写入excel

技术图片

 

 取出薪水和公司名称做一个简单的可视化

技术图片

 

 技术图片

 

 可以看到成都的python岗位平均薪资12 - 20k

最低工资2k,最高工资60k

在20 - 30k工资的人数占比最高为30%,0-10k的人数占比还是挺低的,当然都有学历和工作经验的要求(我就懒得分析了)

 

以上是关于爬取拉勾网的主要内容,如果未能解决你的问题,请参考以下文章

python3 爬取拉勾网1

爬取拉勾网

scrapy 爬取拉勾网

爬取拉勾网示例

通俗易懂的分析如何用Python实现一只小爬虫,爬取拉勾网的职位信息

python无所不能,爬虫几分钟爬取拉勾网,实现数据可视化!