小白爬虫综合项目1

Posted studybrother

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了小白爬虫综合项目1相关的知识,希望对你有一定的参考价值。

项目1:搜狗知乎,爬取指定存储上一级目录的名字,以及存储爬取的页码

#爬取前三页数据
import requests
import os
file_name=input(请输入一个文件名:)
#创建一个文件夹
if not os.path.exists(f./file_name):
    os.mkdir(f./file_name)
word=input(enter a search word:)
#动态指定页码的范围
start_pageNum=int(input(enter a start pageNum))
end_pageNum=int(input(enter a end pageNum))

#自定义请求头信息
headers=
    User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/73.0.3683.86 Safari/537.36

url=https://www.sogou.com/sogou
for page in range(start_pageNum,end_pageNum+1):
    params=
        query:word,
        page:page,
        ie:utf-8,
        insite:zhihu.com
    
    response=requests.get(url=url,params=params,headers=headers)
    #获取响应中的页面数据(指定页码(page))
    page_text=response.text
    
    #进行持久化存储
    fileName=word+str(page)+.html
    filePath=f./file_name/+fileName
    with open(filePath,w,encoding=utf-8)as fp:
        fp.write(page_text)
        print(第%d页数据写入成功%page)

 

项目2:

 

以上是关于小白爬虫综合项目1的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫编程思想(162): 综合爬虫项目:可视化爬虫

Python爬虫编程思想(162): 综合爬虫项目:可视化爬虫

Python爬虫编程思想(162): 综合爬虫项目:可视化爬虫

项目综合管理 项目管理之道

JD爬虫综合案例

通过更改scrapy源码进行spider分发实现一个综合爬虫