一篇文章，采集四个网站，它们是阳光理政，图虫网，书伴网，半次元网

Posted 2021-09-16 梦想橡皮擦

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了一篇文章，采集四个网站，它们是阳光理政，图虫网，书伴网，半次元网相关的知识，希望对你有一定的参考价值。

爬虫 100 例专栏复盘系列第 3 篇文章

案例 9：河北阳光理政投诉板块数据采集

很遗憾，该网址不可访问了，本案例增加的新模块是 lxml，也就是基于该模块的学习。

既然不能访问了，那我们切换到实话实说频道，http://yglz.tousu.hebnews.cn/shss-1.html。

在原案例中，最终获取到的数据存储到了 mongodb 中，复盘案例以抓取到数据为准，存储部分参考原案例即可。

import requests
import random
from lxml import etree  # 从lxml中导入etree
ua = [\'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/86.0.4240.198 Safari/537.36\',

以上是关于一篇文章，采集四个网站，它们是阳光理政，图虫网，书伴网，半次元网的主要内容，如果未能解决你的问题，请参考以下文章

Python爬虫入门教程 10-100 图虫网多线程爬取

Python爬虫入门教程 9-100 河北阳光理政投诉板块

python3爬虫-通过requests爬取图虫网

Aurora 论坛图片下载

基于 Python 的 Scrapy 爬虫入门：页面提取

欢迎来访个人网站——阳光日志