python网络爬虫静态网页抓取
Posted bai2018
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python网络爬虫静态网页抓取相关的知识,希望对你有一定的参考价值。
获取响应内容:
import requests r=requests.get(‘http://www.santostang.com/‘) print(r.encoding) print(r.status_code) print(r.text)
获取编码,状态(200成功,4xx客户端错误,5xx服务器相应错误),文本,等。
定制Request请求
传递URL参数
key_dict = ‘key1‘:‘value1‘,‘key2‘:‘value2‘ r=requests.get(‘http://httpbin.org/get‘,params=key_dict) print(r.url) print(r.text)
定制请求头
headers=‘user-agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0‘,‘Host‘:‘www.santostang.com‘ r=requests.get(‘http://www.santostang.com‘,headers=headers) print(r.status_code)
发送POST请求
POST请求发送表单信息,密码不显示在URL中,数据字典发送时自动编码为表单形式。
key_dict = ‘key1‘:‘value1‘,‘key2‘:‘value2‘ r=requests.post(‘http://httpbin.org/post‘,data=key_dict) print(r.url) print(r.text)
超时并抛出异常
r=requests.get(‘http://www.santostang.com/‘,timeout=0.11)
以上是关于python网络爬虫静态网页抓取的主要内容,如果未能解决你的问题,请参考以下文章
python网络爬虫抓取动态网页并将数据存入数据库MySQL