python爬虫实战

Posted 想成为大师啊

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫实战相关的知识,希望对你有一定的参考价值。

实战一:网页采集器

UA:User-Agent(请求载体的身份标识)

UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器
说明请求是一个正常的请求。但是,如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求
为不正常的请求(爬虫),则服务器端就很有可能拒绝该次请求

UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器

导包

import requests
if __name__ == "__main__":

UA伪装:将对应的User-Agent封装到一个字典中

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.62'
    }

网页地址

url = "https://www.sogou.com/web"

处理url携带的参数:封装到字典中

kw = input('enter a word:')
param = {
    'query': kw
}

对指定的url发起的请求对应的是url携带参数的,并且请求过程中处理了参数

response = requests.get(url=url, params=param, headers=headers)
page_text = response.text
fileName = kw + '.html'
with open(fileName, 'w', encoding='utf-8') as fp:
    fp.write(page_text)
print('爬取完毕')

以上是关于python爬虫实战的主要内容,如果未能解决你的问题,请参考以下文章

scrapy主动退出爬虫的代码片段(python3)

分享《Python 3网络爬虫开发实战》中文PDF+源代码

分享《Python 3网络爬虫开发实战》中文PDF+源代码

网络爬虫开发实战2和一的区别

分享《Python 3网络爬虫开发实战》中文PDF+源代码+崔庆才

Python爬虫实战,只需30行代码,美女图片装满24GU盘