一篇文章,采集四个网站,它们是阳光理政,图虫网,书伴网,半次元网
Posted 梦想橡皮擦
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一篇文章,采集四个网站,它们是阳光理政,图虫网,书伴网,半次元网相关的知识,希望对你有一定的参考价值。
爬虫 100 例专栏复盘系列第 3 篇文章
案例 9:河北阳光理政投诉板块数据采集
很遗憾,该网址不可访问了,本案例增加的新模块是 lxml
,也就是基于该模块的学习。
既然不能访问了,那我们切换到实话实说频道,http://yglz.tousu.hebnews.cn/shss-1.html。
在原案例中,最终获取到的数据存储到了 mongodb
中,复盘案例以抓取到数据为准,存储部分参考原案例即可。
import requests
import random
from lxml import etree # 从lxml中导入etree
ua = [\'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/86.0.4240.198 Safari/537.36\',
以上是关于一篇文章,采集四个网站,它们是阳光理政,图虫网,书伴网,半次元网的主要内容,如果未能解决你的问题,请参考以下文章