爬虫补天练习小爬虫

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫补天练习小爬虫相关的知识,希望对你有一定的参考价值。

[求助] 如何在爬虫中使用cookie模拟登陆,再来提取厂商网址

本地只爬取到了厂商 ID、名称、行业类型,butian把厂商网址隐藏了,不能在未登陆状态下爬取了,不过本次方法和之前一样,需要改进的是如何在python中模拟登陆补天,在登陆状态下遍历厂商提交页面再提取厂商网址,求指教

import requests
import json
for i in range(1, 3):
    head = {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/43.0.2357.130 Safari/537.36‘}
    url = ‘http://loudong.360.cn/Reward/pub‘
    d = {‘s‘: ‘1‘, ‘p‘: i, ‘token‘: ‘‘}
    r = requests.post(url, headers=head, data=d).text
    jsDict = json.loads(r)
    jsData = jsDict[‘data‘]
    company_host = jsData[‘list‘]
    for each in company_host:
        print(each[‘company_id‘], each[‘company_name‘], each[‘industry‘])
        if not each:
            break



前三页厂商输出结果:


60059 新开普电子股份有限公司 未知

60057 安徽省马鞍山工业学校 未知

60053 北京金和网络股份有限公司 未知

60051 平阳县科学技术局 未知

60049 成都市人力资源社会保障信息中心 未知

60048 重庆市沙坪坝区人民代表大会 未知

60046 国美控股集团 未知

60044 富士康科技 未知

60043 西门子(中国)有限公司 未知

60042 德阳市人民政府政务服务中心 未知

60041 肇庆高要区人民法院 未知

60040 珠海市五一一八科技有限公司 未知

60039 中原工学院 未知

60037 便利蜂 未知

60036 Goldwind 未知

60032 中共铜陵市郊区纪委 未知

60031 南京厚建软件 未知

60029 上海点掌文化传媒股份有限公司 未知

60026 中共含山县纪律检查委员会 未知

60025 微贷(杭州)金融信息服务有限公司 互联网

60022 广州沐思信息科技有限公司 未知

60020 建信财产保险有限公司 未知

60019 五星电器 未知

60017 深圳法大大网络科技有限公司 未知

60016 上海岱牧网络有限公司 未知

60012 宁波市住房公积金管理中心 未知

60009 中国外运股份有限公司 未知

60007 重庆有线电视网络股份有限公司 未知

60005 华农财产保险股份有限公司 未知

60004 四川建设网有限责任公司 互联网

60002 中信建投期货有限公司 未知

60001 内江师范学院 未知

59998 郴州市人力资源和社会保障局 未知

59997 中国爱艺网 未知

59996 景德镇陶瓷网 未知

59990 慧聪家电电商控股集团 电商

59989 辽阳市食品药品监督管理局 未知

59986 深圳市双梦科技有限公司 互联网

59983 滨州市住房和城乡建设局 政府

59982 青岛南铭网络科技开发有限公司 未知

59981 辽宁省鞍山市农业信息网 未知

59979 安心财产保险有限责任公司 未知

59977 深圳市共速达物流股份有限公司 未知

59976 北京华凯思特科技有限公司 未知

59975 杭州奎因科技有限公司 未知

59974 iCMS 互联网

59973 重庆市文化委员会 未知

59972 硬笔书法教育考试网 未知

59971 浙江爱信诺航天信息有限公司 未知

59969 铜陵房地产信息网 未知

59968 瓯海行政审批中心 未知

59965 宁波财税网 政府

59961 互站网 未知

59960 常州轻工职业技术学院 未知

59958 瑞安市麦田网络科技有限公司 未知

59955 重庆市礼仪之邦电子商务有限公司 未知

59953 成都伊藤洋华堂有限公司 未知

59952 杭州安恒信息技术有限公司 未知

59951 宁波奉化区公共资源交易中心 未知

59950 物美 未知


Process finished with exit code 0


以上是关于爬虫补天练习小爬虫的主要内容,如果未能解决你的问题,请参考以下文章

scrapy按顺序启动多个爬虫代码片段(python3)

scrapy主动退出爬虫的代码片段(python3)

Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段

爬虫日常练习-艾图网单页面图片爬取

全网最有效爬虫练习,练习完可就业(源代码交流)

Python爬虫练习:爬取美团网成都地区的酒店信息