Mooc爬虫01-request库

Posted weihuchao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Mooc爬虫01-request库相关的知识,希望对你有一定的参考价值。

1 安装

  pip install requests

2 主要的方法

  requests.request()  支撑所有的基础方法

  requests.get()      

  requests.head()

  requests.post()

  requests.put()

  requests.patch()

  requests.delete()

3 Get方法

  r = requests.get(URL)

    r是一个Response对象, 包含爬虫返回的内容

    URL的Request

  requests.get(url, params=None, **kwargs)

  基本操作方法

import requests
r = requests.get("http://www.baidu.com")
print(r.status_code)

4 Response对象属性

  status_code

    HTTP请求的返回状态, 200表示成功

  text

    页面内容

  encoding

    根据header猜测的内容编码方式

  apparent_encoding

    从内容中分析出来的编码方式

  content

    HTTP相应的二进制形式

4 Requests库的异常

  ConnectionError

    网络链接错误, 例如DNS查询失败, 拒绝链接等

  HTTPError

    HTTP错误

  URLRequires

    冲过最大重定向次数

  ConnectTimeout

    链接超时异常, 仅仅是链接的时候的时间超出

  Timeout

    url请求超时, 是这个过程的时间超出

5 通用代码框架  

  通用代码框架如下

import requests


def gethtmlText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"


if __name__ == "__main__":
    url = "http://www.python.org"
    print(getHTMLText())

  

以上是关于Mooc爬虫01-request库的主要内容,如果未能解决你的问题,请参考以下文章

Mooc爬虫04-正则表达式

Mooc爬虫03-BeautifulSoup

Python网络爬虫与信息提取(中国大学mooc)

MOOC《Python网络爬虫与信息提取》学习过程笔记requests库第一周1-3

Mooc爬虫05-scrapy框架

Python网络爬虫与信息提取—requests库入门