如何用最简单的Python爬虫采集整个网站

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何用最简单的Python爬虫采集整个网站相关的知识,希望对你有一定的参考价值。

采集网站数据并不难,但是需要爬虫有足够的深度。我们创建一个爬虫,递归地遍历每个网站,只收集那些网站页面上的数据。一般的比较费时间的网站采集方法从顶级页面开始(一般是网站主页),然后搜索页面上的所有链接,形成列表,再去采集到的这些链接页面,继续采集每个页面的链接形成新的列表,重复执行。 参考技术A 最简单的办法:深层网络爬取的基本构成:URL列表、LVS列表(LVS指的是标签/数值集合,即填充表单的数据源)、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器。
深层网络爬虫的表单填写有两种类型:
基于领域知识的表单填写(建立一个填写表单的关键词库,在需要的时候,根据语义分析选择对应的关键词进行填写);
基于网页结构分析的表单填写(一般在领域知识有限的情况下使用,这种方式会根据网页结构进行分析,并自动地进行表单填写)。
参考技术B 用网站地图就可以

以上是关于如何用最简单的Python爬虫采集整个网站的主要内容,如果未能解决你的问题,请参考以下文章

如何用Python爬虫抓取网页内容?

学习爬虫:《Python网络数据采集》中英文PDF+代码

如何用Python做爬虫?

如何用爬虫获取网易云音乐歌单中的歌曲

如何用爬虫抓取股市数据并生成分析报表

爬虫:新浪微博爬虫的最简单办法