Python爬虫编程思想（36）：项目实战-抓取斗破小说网的目录和全文

Posted 2021-10-18 蒙娜丽宁

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python爬虫编程思想（36）：项目实战-抓取斗破小说网的目录和全文相关的知识，希望对你有一定的参考价值。

到现在为止我们已经学习了3个Python网络库（urllib、urllib3和requests），以及通过正则表达式过滤字符串。现在该来点实战了。本节以及后面2节会给出3个案例，分别使用urllib、urllib3以及requests，并通过正则表达式抓取Web数据，这些数据或者显示在Console中，或者保存到文本文件中。

本文要实现的案例是通过urllib库抓取斗破小说网（http://www.doupoxs.com）上指定的小说的目录和每一节的完整内容（只保留纯文本内容）。当抓取包含目录和小说内容的页面后，会通过正则表达式分析html代码，并提取出目录标题、对应的URL以及文本形式的小说内容。

现在进入斗破小说网，选择一篇小说，本节选择了http://www.doupoxs.com/nalanwudi，目录页面如图1所示。

以上是关于Python爬虫编程思想（36）：项目实战-抓取斗破小说网的目录和全文的主要内容，如果未能解决你的问题，请参考以下文章

Python爬虫编程思想（92）：项目实战：抓取京东图书评价

Python爬虫编程思想（126）：项目实战--实时抓取“得到”App在线课程

Python爬虫编程思想（61）：项目实战：抓取租房信息

Python爬虫编程思想（69）：项目实战--抓取当当图书排行榜