爬虫公开课学习的一天

Posted xingyuner

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫公开课学习的一天相关的知识,希望对你有一定的参考价值。

学习链接http://stu.ityxb.com/openCourses/detail/238

 

什么是爬虫:

  网络爬虫就是模拟浏览器发送网络请求 接受请求响应 按照一定规则 自动抓取互联网信息的程序

爬虫的用途:

  数据采集(百度新闻,今日头条)、12306抢票、网络自动投票、

调试工具:    

  Fn+ F12  

      技术图片

 

 

 

 

 

浏览器的请求过程:

    技术图片

 

 

 

 

 URL规则

    技术图片

 

http请求

      技术图片

 

技术图片

 

 技术图片

 

 http请求重要组成部分

  请求URL、请求方式 (post、GET)、请求头 、请求体

http响应格式

  技术图片

 

 

 http响应重要组成部分

  响应状态码:404、500 、200(成功)

   响应头 、

   响应体(html内容)

Ruquests模块

  是一个python模块,可以模拟浏览器发送请求获取响应

学习资料:

http://cn.python-requests.org/zh_CN/latest/

 

 

 

 

 安装

pip install requests

 

爬取网站步骤:

步骤一:分析

  请求url、请求方式、请求头、请求参数

 

步骤二:模拟浏览器发送请求获取响应

‘‘‘
url https://www.baidu.com/baidu?wd=%E7%9F%B3%E5%AE%B6%E5%BA%84%E5%AD%A6%E9%99%A2
请求方式  get
请求头 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0
请求参数 ?wd=%E7%9F%B3%E5%AE%B6%E5%BA%84%E5%AD%A6%E9%99%A2
‘‘‘
# 1.导入模块
import requests
#2. 模拟发送请求获取响应

response = requests.get(
    url = " https://www.baidu.com/baidu/s",
    headers={
         "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0",
    }

)

#3. 对响应内容结果进行处理
with open (获取响应内容.html , w,encoding=utf8) as f:
    f.write(response.text)  

 实现自定义请求参数

 

 

 

 

 

 

以上是关于爬虫公开课学习的一天的主要内容,如果未能解决你的问题,请参考以下文章

编译器斯坦福公开课学习2

黑马公开课——运行原理与GC学习笔记

python怎么做大数据分析

传智播客c/c++公开课学习笔记--Linux网络流媒体服务器的核心代码揭秘

机器学习基础:台大李宏毅的线性代数视频公开课

斯坦福大学公开课:iPad和iPhone应用开发(iOS5) 学习笔记 2