爬虫补天练习小爬虫
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫补天练习小爬虫相关的知识,希望对你有一定的参考价值。
[求助] 如何在爬虫中使用cookie模拟登陆,再来提取厂商网址
本地只爬取到了厂商 ID、名称、行业类型,butian把厂商网址隐藏了,不能在未登陆状态下爬取了,不过本次方法和之前一样,需要改进的是如何在python中模拟登陆补天,在登陆状态下遍历厂商提交页面再提取厂商网址,求指教
import requests import json for i in range(1, 3): head = { ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/43.0.2357.130 Safari/537.36‘} url = ‘http://loudong.360.cn/Reward/pub‘ d = {‘s‘: ‘1‘, ‘p‘: i, ‘token‘: ‘‘} r = requests.post(url, headers=head, data=d).text jsDict = json.loads(r) jsData = jsDict[‘data‘] company_host = jsData[‘list‘] for each in company_host: print(each[‘company_id‘], each[‘company_name‘], each[‘industry‘]) if not each: break
前三页厂商输出结果:
60059 新开普电子股份有限公司 未知
60057 安徽省马鞍山工业学校 未知
60053 北京金和网络股份有限公司 未知
60051 平阳县科学技术局 未知
60049 成都市人力资源社会保障信息中心 未知
60048 重庆市沙坪坝区人民代表大会 未知
60046 国美控股集团 未知
60044 富士康科技 未知
60043 西门子(中国)有限公司 未知
60042 德阳市人民政府政务服务中心 未知
60041 肇庆高要区人民法院 未知
60040 珠海市五一一八科技有限公司 未知
60039 中原工学院 未知
60037 便利蜂 未知
60036 Goldwind 未知
60032 中共铜陵市郊区纪委 未知
60031 南京厚建软件 未知
60029 上海点掌文化传媒股份有限公司 未知
60026 中共含山县纪律检查委员会 未知
60025 微贷(杭州)金融信息服务有限公司 互联网
60022 广州沐思信息科技有限公司 未知
60020 建信财产保险有限公司 未知
60019 五星电器 未知
60017 深圳法大大网络科技有限公司 未知
60016 上海岱牧网络有限公司 未知
60012 宁波市住房公积金管理中心 未知
60009 中国外运股份有限公司 未知
60007 重庆有线电视网络股份有限公司 未知
60005 华农财产保险股份有限公司 未知
60004 四川建设网有限责任公司 互联网
60002 中信建投期货有限公司 未知
60001 内江师范学院 未知
59998 郴州市人力资源和社会保障局 未知
59997 中国爱艺网 未知
59996 景德镇陶瓷网 未知
59990 慧聪家电电商控股集团 电商
59989 辽阳市食品药品监督管理局 未知
59986 深圳市双梦科技有限公司 互联网
59983 滨州市住房和城乡建设局 政府
59982 青岛南铭网络科技开发有限公司 未知
59981 辽宁省鞍山市农业信息网 未知
59979 安心财产保险有限责任公司 未知
59977 深圳市共速达物流股份有限公司 未知
59976 北京华凯思特科技有限公司 未知
59975 杭州奎因科技有限公司 未知
59974 iCMS 互联网
59973 重庆市文化委员会 未知
59972 硬笔书法教育考试网 未知
59971 浙江爱信诺航天信息有限公司 未知
59969 铜陵房地产信息网 未知
59968 瓯海行政审批中心 未知
59965 宁波财税网 政府
59961 互站网 未知
59960 常州轻工职业技术学院 未知
59958 瑞安市麦田网络科技有限公司 未知
59955 重庆市礼仪之邦电子商务有限公司 未知
59953 成都伊藤洋华堂有限公司 未知
59952 杭州安恒信息技术有限公司 未知
59951 宁波奉化区公共资源交易中心 未知
59950 物美 未知
Process finished with exit code 0
以上是关于爬虫补天练习小爬虫的主要内容,如果未能解决你的问题,请参考以下文章
Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段