python网络爬虫静态网页抓取

Posted bai2018

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python网络爬虫静态网页抓取相关的知识,希望对你有一定的参考价值。

获取响应内容:

import requests
r=requests.get(‘http://www.santostang.com/‘)
print(r.encoding)
print(r.status_code)
print(r.text)

获取编码,状态(200成功,4xx客户端错误,5xx服务器相应错误),文本,等。

 

定制Request请求

传递URL参数

key_dict = ‘key1‘:‘value1‘,‘key2‘:‘value2‘
r=requests.get(‘http://httpbin.org/get‘,params=key_dict)
print(r.url)
print(r.text)

定制请求头

headers=‘user-agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0‘,‘Host‘:‘www.santostang.com‘
r=requests.get(‘http://www.santostang.com‘,headers=headers)
print(r.status_code)

发送POST请求

POST请求发送表单信息,密码不显示在URL中,数据字典发送时自动编码为表单形式。

key_dict = ‘key1‘:‘value1‘,‘key2‘:‘value2‘
r=requests.post(‘http://httpbin.org/post‘,data=key_dict)
print(r.url)
print(r.text)

超时并抛出异常

r=requests.get(‘http://www.santostang.com/‘,timeout=0.11)

  

 

以上是关于python网络爬虫静态网页抓取的主要内容,如果未能解决你的问题,请参考以下文章

python网络爬虫抓取动态网页并将数据存入数据库MySQL

如何用python 爬虫抓取金融数据

python爬虫能干啥

Python开发简单爬虫之静态网页抓取篇:爬取“豆瓣电影 Top 250”电影数据

Python网络爬虫之网页抓取

java爬虫抓取指定数据