10分钟入门爬虫-小说网站爬取

Posted 2023-03-31

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了10分钟入门爬虫-小说网站爬取相关的知识，希望对你有一定的参考价值。

参考技术A

三月份到四月初花了很长的时间看了一本小说—《明朝那些事儿》，几乎一整个月的时间都在看，越看越入迷，这就是小说的魅力吧。

故事从朱元璋的乞讨要饭开始，经过不断地残酷战争，击败各种对手，建立了明朝；再到后来燕王朱棣起兵造反，接着戚继光抗击倭寇；后来又有明朝出现了最有名的内阁首辅大臣—张居正，大刀阔斧地进行改革，明朝进入鼎盛时期；最后清朝入关，明朝还是败在了崇祯的手上，准确的说是：注定会败在他的手上。正如文中写到的那样：

书讲述的不仅仅是历史， 权利、希望、痛苦、气节、孤独、残暴、邪恶、忍耐、坚持、真理、忠诚 ……在书中样样都有。在书的最后，作者写了一首诗，摘录在这里：

本文介绍的如何使用Python爬取一个网站上关于这本书的部分章节。

网站首页： https://www.kanunu8.com/

爬取主链接： https://www.kanunu8.com/files/chinese/201102/1777.html

1、章节标题

2、章节正文内容

以第一章为例：我们点击“第一章童年”可以进入第一章的正文部分。

看看最终爬取到的数据。在 本地目录 下生成的一个文件夹：《明朝那些事儿》下面就有我们爬取到的33个章节的内容，包含前言和引子部分。

在本次爬虫中使用到的相关库

分析一下网页的规律

发现了规律：每个章节的页面都有自己的URL后缀加以区分。看下网页源码找出URL地址：

上面已经发现了每个章节的URL地址的后缀

正则写的不太好，地址还需要切片一次

首页源码返回内容解析的结果：

切片之后的有效URL地址：

以上是关于10分钟入门爬虫-小说网站爬取的主要内容，如果未能解决你的问题，请参考以下文章