Python数据挖掘—爬虫基础

Posted 之墨_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python数据挖掘—爬虫基础相关的知识,希望对你有一定的参考价值。

Python数据挖掘—爬虫基础

反爬手段

1.User‐Agent

User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

2.代理IP

西次代理
快代理
什么是高匿名、匿名和透明代理?它们有什么区别?
1. 使用透明代理,对方服务器可以知道你使用了代理,并且也知道你的真实IP。
2. 使用匿名代理,对方服务器可以知道你使用了代理,但不知道你的真实IP。
3.
4. 使用高匿名代理,对方服务器不知道你使用了代理,更不知道你的真实IP。

3. 验证码访问

打码平台
云打码平台
超级🦅

4.动态加载网页

网站返回的是js数据 并不是网页的真实数据
selenium驱动真实的浏览器发送请求

5.数据加密

分析js代码

urllib库

urllib.request.urlopen() 模拟浏览器向服务器发送请求
response 服务器返回的数据
response的数据类型是HttpResponse
字节‐‐>字符串
解码decode
字符串‐‐>字节
编码encode
read() 字节形式读取二进制 扩展:rede(5)返回前几个字节
readline() 读取一行
readlines() 一行一行读取 直至结束
getcode() 获取状态码
geturl() 获取url
getheaders() 获取headers
urllib.request.urlretrieve()
请求网页
请求图片
请求视频

请求对象的定制

语法:request = urllib.request.Request()

正则表达式

以上是关于Python数据挖掘—爬虫基础的主要内容,如果未能解决你的问题,请参考以下文章

03,Python网络爬虫第一弹《Python网络爬虫相关基础概念》

python基础 爬虫项目都有哪些?

python基础爬虫的框架和运行流程

python爬虫需要啥基础

python爬虫-基础入门-python爬虫突破封锁

Python数据挖掘—爬虫基础