pyhont---信息的爬取与提取---requests库

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pyhont---信息的爬取与提取---requests库相关的知识,希望对你有一定的参考价值。

python --requests能爬取网页的信息

Requests库的七个主要方法
request(method.url.**kwargs) 构造一个请求,支撑以下各方法的基础方法
  get() 获取html网页的主要方法,对应于http的get
  head() 获取HTML网页头信息的方法,网页中的head部分
  post() 向网页提交post请求,对应于http的post
  put() 向网页提交Put请求,对应于http的put
  patch()向HTML网页提交局部修改请求,对应于HTTP的patch
  delete() 向HTML网页提交删除请求,对应于HTTP的delete

response对象的五个常用属性:
  r.status_code 200表示连接成功
  r.text http响应内容的字符串形式,即url对应网页内容
  r.encoding 从httpheader中猜测响应内容编码方式
  r.apparent_encoding 从内容中分析出响应内容编码方式
  r.content http响应内容的二进制形式

get()方法获取资源的一般流程:
  r.status_code 检查连接状态
  r.text r,encoding r.apparent_encoding 等解析网页内容

 

通用框架

import requests
def getHtml(url):
    try:
        r=requests.get(url) ‘‘‘/*返回一个response对象*/ ‘‘‘
        r.raise_for_status
        r.encoding=r.apparent_encoding
        return  r.text;
    except:
        print("爬取失败")

  

以上是关于pyhont---信息的爬取与提取---requests库的主要内容,如果未能解决你的问题,请参考以下文章

requests实例4:图片的爬取与保存

Python | 新冠肺炎疫情数据的爬取与可视化分析

爬虫的定向爬取与垂直搜索

对猫眼电影排行的爬取

基于SSM疫情信息爬取与分析系统

python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制