爬起点小说 day01

Posted 2020-10-16 窃语

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬起点小说 day01相关的知识，希望对你有一定的参考价值。

先介绍下我自己爬起点小说的思路：

1.爬取所有的类型列表
a.链接存redis中类型表：novel_list 具体每一种类型：bnovel_all_list（把novel_list和bnovel_list合并为bnovel_list）
b.名字存到mongodb中，构成树链表表名： bnovel_all_list
2.爬取小说的名字和链接(redis:all_novel_href （只需要novels 的id） mongodb:novels上一个id作为标签)
小说表：每次添加，去重（如果有就更新mongodb的数据(根据redis的id)，没有就添加到mongodb中）（可能没有重复的）
所有链接都放到redis（id(mongodb的id)+url）中，把小说名放到mongodb中
3.爬小说的首页：
1.爬取作者，书的状态（连载or完结）（更新到mongodb中）
4.根据目录去爬取所有的章节（mongodb中章名作为键，内容存的文件位置作为值）（在mongodb中可以把汉字作为键）（mongodb章节表）
vip:章节的处理，爬还是不爬？爬（要的只是书的数量，内容无所谓）
连载和完结的处理：将所有未完结书的最后一章链接都存到redis中，格式为书的id+链接
每天根据这个链接去查看有没有下一章，有就去爬取，并更改mongodb的数据库，并把链接更新（
redis的lrange or lpop操作?）
（先执行每天的查看，未完结的每次都去爬书的首页，完结就修改mongodb的数据，未完结就pass）

过几天介绍上代码

以上是关于爬起点小说 day01的主要内容，如果未能解决你的问题，请参考以下文章

python实战爬取起点中文网自制小说阅读器

起点中文网小说爬取-etree，xpath，os

爬虫简单之二---使用进程爬取起点中文网的六万多也页小说的名字，作者，等一些基本信息，并存入csv中

python爬虫之小说爬取

如果爬取一个小说网站以后，如何做到更新内容的爬取并且存储

Python爬取起点中文网小说信息及封面图片