一篇文章,采集四个网站,它们是阳光理政,图虫网,书伴网,半次元网

Posted 梦想橡皮擦

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一篇文章,采集四个网站,它们是阳光理政,图虫网,书伴网,半次元网相关的知识,希望对你有一定的参考价值。

爬虫 100 例专栏复盘系列第 3 篇文章

案例 9:河北阳光理政投诉板块数据采集

很遗憾,该网址不可访问了,本案例增加的新模块是 lxml,也就是基于该模块的学习。

既然不能访问了,那我们切换到实话实说频道,http://yglz.tousu.hebnews.cn/shss-1.html

在原案例中,最终获取到的数据存储到了 mongodb 中,复盘案例以抓取到数据为准,存储部分参考原案例即可。

import requests
import random
from lxml import etree  # 从lxml中导入etree
ua = [\'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/86.0.4240.198 Safari/537.36\',

以上是关于一篇文章,采集四个网站,它们是阳光理政,图虫网,书伴网,半次元网的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫入门教程 10-100 图虫网多线程爬取

Python爬虫入门教程 9-100 河北阳光理政投诉板块

python3爬虫-通过requests爬取图虫网

Aurora 论坛图片下载

基于 Python 的 Scrapy 爬虫入门:页面提取

欢迎来访个人网站——阳光日志