Python爬虫编程思想:实战案例:抓取博客文章列表

Posted 蒙娜丽宁

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫编程思想:实战案例:抓取博客文章列表相关的知识,希望对你有一定的参考价值。

        在上文给出的爬虫案例属于全网爬虫,从理论上说,如果给定的入口点也没包含足够多URL,并且大多数URL都可以导航到其他网站的页面,这个爬虫是可以将整个互联网的页面都抓取下来的。除了这种爬虫外,还有另外一种爬虫,这就是定向爬虫,这种爬虫并不是用来抓取整个互联网的页面的,而是用与抓取特定网站的资源。例如,抓取某个网站的博客列表数据。

        定向爬虫的基本实现原理与全网爬虫类似,都需要分析html代码,只是定向爬虫可能并不会对每一个获取的URL对应的页面进行分析,即使分析,可能也不会继续从该页面提取更多的URL,或者会判断域名,例如,只抓取包含特定域名的URL对应的页面。本节给出了一个定向爬虫的案例,以便让读者对定向爬虫有更深入的理解。

        本例抓取博客园(https://www.cnblogs.com)首页的博客标题和URL,并将博客标题和URL输出到Console。

        编写定向爬虫的第一步就是分析相关页面的代码。现在进入博客园页面,在页面上单击鼠标右键,在弹出菜单中单击“检查”菜单项打开开发者工具,然后单击开发者工具左上角黑色箭头,并用鼠标单击博客园首页任意一个博客标题,在开发者工具的Elements面板会立刻定位到该博客标题对应的HTML代码,图1中黑框内就是包含博客园首页所有博客标题以及相关信息的HTML代码。

以上是关于Python爬虫编程思想:实战案例:抓取博客文章列表的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫编程思想(62): 项目实战:抓取酷狗网络红歌榜

Python爬虫编程思想(62): 项目实战:抓取酷狗网络红歌榜

Python爬虫编程思想(36):项目实战-抓取斗破小说网的目录和全文

Python爬虫编程思想(143):项目实战:多线程和多进程爬虫

Python爬虫编程思想(143):项目实战:多线程和多进程爬虫

Python爬虫编程思想(92):项目实战:抓取京东图书评价