Python数据挖掘—爬虫基础

Posted 2022-08-08 之墨_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python数据挖掘—爬虫基础相关的知识，希望对你有一定的参考价值。

Python数据挖掘—爬虫基础

反爬手段

1.User‐Agent

User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

2.代理IP

西次代理
快代理
什么是高匿名、匿名和透明代理？它们有什么区别？
1. 使用透明代理，对方服务器可以知道你使用了代理，并且也知道你的真实IP。
2. 使用匿名代理，对方服务器可以知道你使用了代理，但不知道你的真实IP。
3.
4. 使用高匿名代理，对方服务器不知道你使用了代理，更不知道你的真实IP。

3. 验证码访问

打码平台
云打码平台
超级🦅

4.动态加载网页

网站返回的是js数据并不是网页的真实数据
selenium驱动真实的浏览器发送请求

5.数据加密

分析js代码

urllib库

urllib.request.urlopen() 模拟浏览器向服务器发送请求
response 服务器返回的数据
response的数据类型是HttpResponse
字节‐‐>字符串
解码decode
字符串‐‐>字节
编码encode
read() 字节形式读取二进制扩展：rede(5)返回前几个字节
readline() 读取一行
readlines() 一行一行读取直至结束
getcode() 获取状态码
geturl() 获取url
getheaders() 获取headers
urllib.request.urlretrieve()
请求网页
请求图片
请求视频

请求对象的定制

语法：request = urllib.request.Request()

正则表达式

以上是关于Python数据挖掘—爬虫基础的主要内容，如果未能解决你的问题，请参考以下文章

03，Python网络爬虫第一弹《Python网络爬虫相关基础概念》

python基础爬虫项目都有哪些？

python基础爬虫的框架和运行流程

python爬虫需要啥基础

python爬虫-基础入门-python爬虫突破封锁

Python数据挖掘—爬虫基础