基于静态网页爬虫技术的全书网小说模拟下载器
Posted 辽北学府
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于静态网页爬虫技术的全书网小说模拟下载器相关的知识,希望对你有一定的参考价值。
哈哈,看名头是不是很厉害啊,其实就是小爬虫框架。什么是爬虫?不用管它,就是个小虫子。
代码运行环境在之前的推文中已经讲过可在诸葛神弩装备库查看,上链接:
好啦,重点来了,直接放代码:
import requests
from bs4 import BeautifulSoup
import bs4
from time import sleep
def gethtml(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
print("URL获取失败!")
def gethref(ulist,html):
soup=BeautifulSoup(html,'html.parser')
for li in soup.find('div','clearfix dirconone').children:
if isinstance(li, bs4.element.Tag):
a=li('a')
if len(a)>=1:
for i in range(len(a)):
ulist.append(a[i]['href'])
return ulist
def getStrong(ul):
for i in range(len(ul)):
try:
while (i+1)%10==0:
print("我累了,休息会!!!!")
sleep(30)
break
r=requests.get(ul[i],timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
except:
print(i+1,"章节URL获取失败!")
soup=BeautifulSoup(r.text,'html.parser')
title=soup.strong.text
mainContenr=soup.find('div','mainContenr').text
path="D:/雪冢大大.txt"
print("开始写入第",i+1,"章")
with open(path,'a',encoding='utf-8') as f:
f.write(title)
f.write(mainContenr)
f.close()
print("文件西写入完毕!")
def main():
uinfo=[]
uinto=[]
url='http://www.quanshuwang.cn/book/171/171714' #放这!这这这!
html=getHTML(url)
uinto=gethref(uinfo,html)
getStrong(uinto)
main()
将代码粘贴到sublime Text中,整个代码唯一需要改动的就是第49行代码处的url,这个url是你要下载的小说的目录网址。这里仔细说说吧。
比如我们拿《盗墓笔记》为例吧,首先浏览器打开全书网,搜索栏搜索盗墓笔记。如你不是笨到没救的话,应该能看到如下界面:
然后点开始阅读按钮,进入下一个界面。
看上面,对,红圈里的就是你要复制的东东,把它复制下来,url=‘ 放这 ’,注意,两边的小撇别漏了。都弄完之后按“ctrl+b”运行就可以,等运行完毕,到D盘找一个叫“雪冢大大”文本文档,注意啦!下次要爬取别的之前先把这个“雪冢大大”文档删掉哈!
总之呢,代码是我写来解闷的,禁止盗取滥用。只做学术交流。
雪冢系列作品未经容许本人容许,禁止转载!
以上是关于基于静态网页爬虫技术的全书网小说模拟下载器的主要内容,如果未能解决你的问题,请参考以下文章