爬取拉勾网

Posted 2020-11-27 truedragon

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬取拉勾网相关的知识，希望对你有一定的参考价值。

爬取的url：https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=

技术图片

爬取职位名称，薪水，公司，待遇这些

抓包，找到信息加载为一个post请求返回

技术图片

查看他携带的数据，里面是关键字(python)和页数(pn),这个sid每次都会改变，经测试，该post请求主要检查的是cookies，这个sid不需要(一次一次试出来的)

技术图片

既然需要携带cookie，那我们首先建立一个session连接，获得cookie

1 s.get(url, headers=headers, timeout=3)
2 cookie = s.cookies

之后我们再用这个cookie构造post请求

1 response = s.post(url2, data=data, headers=headers, cookies=cookie)
2 html = response.text

成功返回json数据，之后解析json取出我们需要的数据就可以了

 1 json_data = json.loads(html)
 2 resulet = json_data[‘content‘][‘positionResult‘][‘result‘]
 3 for datas in resulet:
 4     positionName = datas[‘positionName‘]
 5     companyShortName = datas[‘companyShortName‘]
 6     companySize = datas[‘companySize‘]
 7     salary = datas[‘salary‘]
 8     workYear = datas[‘workYear‘]
 9     positionAdvantage = datas[‘positionAdvantage‘]
10     city = datas[‘city‘]
11     firstType = datas[‘firstType‘]
12     secondType = datas[‘secondType‘]

最后将数据写入excel

技术图片

取出薪水和公司名称做一个简单的可视化

技术图片

可以看到成都的python岗位平均薪资12 - 20k

最低工资2k，最高工资60k

在20 - 30k工资的人数占比最高为30%，0-10k的人数占比还是挺低的，当然都有学历和工作经验的要求(我就懒得分析了)

以上是关于爬取拉勾网的主要内容，如果未能解决你的问题，请参考以下文章