Pandas高级数据分析快速入门——全过程综述及案例集锦
Posted 肖永威
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Pandas高级数据分析快速入门——全过程综述及案例集锦相关的知识,希望对你有一定的参考价值。
随着数字化转型的发展,大数据人工智能计算日臻完善,数据与分析将成为企业战略的核心,企业必须高度重视并大力投入。
1. 概述
1.1. Pandas高级数据分析知识体系
基于Pandas高级数据分析,知识技能包括:数据的读写、表内操作、表间操作(例如关系型数据库表关联,Excel sheet关联等)、统计功能、分析计算(基于大数据机器学习高级分析计算)、可视化图表等。
其中,数据层面使用常用的CSV数据文件,以及Clickhouse数据仓库和文档型数据库Mongo DB。
1.2. 高级数据分析过程
数据分析过程较为复杂,涉及到数据采集、数据治理、建立数据仓库、特征工程、建立算法模型、模型训练等工作,本文以数据分析师的视角,只学习掌握数据采集、特征工程、建立算法模型、模型训练等知识技术内容。
1.3. 快速入门环境
1.3.1. 软件开发环境
软件开发环境为windows 10(也可以使用Centos 7),python为3.6.X,开发工具为Jupyter Notebook,建议计算机内存大于16G,互联网网络顺畅。
1.3.2. 业务场景
(1). pandas基本操作使用田径运动员简单数据演练
(2). 数据高级分析,使用少量、截取、脱密的客户加油交易数据
2. 快速入门基础
2.1. Pandas高级数据分析快速入门之一——Python开发环境篇
内容概述:
- Python是什么?
- 安装Python
- Python开发环境安装与配置
2.1. 安装jupyter
2.2. 开发环境汉化
2.3. jupyter工具使用 - 高级数据分析工具安装
3.1. Python工具包
3.2. Python依赖
2.2. Pandas高级数据分析快速入门之二——基础篇
内容概述:
- Pandas构成
0.1. 第一个DataFrame
0.2. Pandas数据类型
0.3. Pandas数据类型转换
0.4. 用到的Python基础
0.4.1. 序列(List)
0.4.2. 字典 - 从读取通用数据文件开始
1.1. 读XLS数据文件
1.2. 读CSV数据文件 - 对表(DataFrame)增减数据
2.1. 增减行数据
2.1.1. 增加行
2.1.2. 删除行
2.2. 增减列数据
2.2.1. 增加列数据
2.2.2. 删除列数据 - 把数据保存到CSV文件
- DataFrame单元格操作
4.1. 读取单元格数据
4.2. 修改单元格数据 - 读取Clickhouse数据
2.3. Pandas高级数据分析快速入门之三——数据挖掘与统计分析篇
内容概述:
- 前言
- 原数据挖掘——交易明细
1.1. 读取原数据
1.2. 时序数据挖掘
1.3. 数据计算
1.4. 挖掘数据周期维度
1.5. 表关联(merge)
1.6. 小结 - 常用特征提取——极限值与统计值
2.1. 最后一次交易关键特征
2.2. 关键极值特征
2.3. 累计/均值/计数等通常特征
2.4. 方差/标准差等波动特征
2.5. 其他 - 按周期统计分析数据
3.1. 月周期
3.2. 月特征提前——极限值与统计值
2.4. Pandas高级数据分析快速入门之四——数据可视化篇
内容概述:
- 关于Matlibplot
- Pandas绘图
2.1. 画直方图
2.2. 画密度图曲线图
2.3. 画折线图
2.4. 画柱状图
2.5. 画饼状图
2.6. 画条形图 - 复杂图形
3.1. 热力图(皮尔逊相关)
3.2. 雷达图
2.5. Pandas高级数据分析快速入门之五——机器学习特征工程篇
内容概述:
- Pandas高级数据分析使用机器学习概述
- 线性回归计算斜率和方差
- 数据密度计算正常状态/周期
- 相关分析计算特征间关系
- 归一化、标准化
- 聚类——KMean
- 小结
2.6. Pandas高级数据分析快速入门之六——机器学习预测分析篇
内容概述:
- 训练集、测试集
- XGBoost分类模型训练
1.1. 输入数据集
1.2. 超参数设置
学习任务参数objective
验证数据的评估指标eval_metric [根据目标默认]
Tree Booster参数
1.3. 模型训练
1.4. 模型持久化 - 预测结果分析
2.1. 重要特征
2.2. 模型评估 - XGBoost分类持久化模型应用
附录:参数
学习任务参数objective
验证数据的评估指标eval_metric [根据目标默认]
3. 延申阅读,常用实用操作与技巧
3.1. Pandas高级数据分析快速入门之数据筛选——分组排序筛选实践笔记
内容概述:
- 排序
- 分组筛选
2.1. 分组后,筛选每组最后一条记录
2.2. 分组后,筛选每组倒数第二条记录
2.3. 分组后,筛选每组首条记录
2.4. 分组后,筛选每组前两条记录(top2)
2.5. 按条件筛选分组
2.6. 分组后,按组筛选
2.7. 分组后,使用Filter筛选
3.2. Pandas高级数据分析快速入门之数据编辑——删除行与列
内容概述:
- 删除行
1.1. 按行索引删除行数据
1.2. 分组删除最后一行数据
1.3. 按条件查询删除行数据
1.4. 按多个行索引删除多行
1.5. 按行范围删除 - 删除列
2.1. 方法一:drop
2.2. 方法二:del - 总结
3.1. drop方法的用法
3.2. 依赖切片操作
3.3. 在CentOS7上部署Python开发工具Jupyter Notebook的遭遇
内容概述:
- 安装Jupyter Notebook
- 部署Jupyter Notebook工作环境
2.1. 创建配置文件及遇到“缺少libstdc++.so.6库”问题
2.2. 配置工作环境
2.3. 打开防火墙 - 启动jupyter notebook服务
3.4. Pandas高级数据分析快速入门之工具使用——Jupyter导出PDF问题
内容概述:
- 安装Tex
- 安装pandoc
- 其他安装包
3.5. 数据处理技术、技巧集锦(Pandas、Numpy、List)
内容概述:
- pandas表合并
1.1. 两个表横向按数据行值相同关联并集(以左表为基准表)
1.2. 两个表横向按数据行值相同交集合并(两表交集)
1.3. 两个表纵向合并 - pandas 分组过滤
2.1. 分组及列名处理
2.2. 过滤 - pandas表内数据处理
3.1. pandas按列过滤字符串(滤除数字中非数字)
3.2. Pandas字符串转换时间处理
3.3. 数据滚动窗
3.4. 时间特征提取
3.5. 特征编码与特征增维 - pandas DateFrame表的行、列操作
4.1. 取行和列的几种常用方式
4.2. 插入列,重新排列
4.3. 数据上移、下移一行
4.4. 删除表最后一行、首行
4.5. 修改列名 - Numpy与DataFrame相互转换
- list与pandas
6.1. 移除(删除)某个值
6.2. 字典与Pandas、Mongo操作 - Numpy数组/矩阵操作
7.1. 二维数组,按行取数据(数组截断)
7.2. 二维数组,取具体几列数据
7.3. 二维数组,横向合并数据
7.4. 二维数组,纵向追加行 - Pandas创建表
8.1. 读取文件创建表
8.2. 读取Mongo数据库数据创建表
8.3. pandas转Json存储到Mongo
8.4. Mongo与Pandas数据读取、存储实例代码
4. 相关内容
4.1. Python使用ClickHouse实践与踩坑记
内容概述:
- 关于ClickHouse使用实践
1.1. ClickHouse 应用于数据仓库场景
1.2. 客户端工具DBeaver
1.3. 大数据应用实践 - Python使用ClickHouse实践
2.1. ClickHouse第三方Python驱动clickhouse_driver
2.2. 实践程序代码 - 总结
4.2. Python开发中使用Mongo DB入门实践
4.3. 应用XGboost实现多分类模型实践
内容概述:
- 输入数据
- 模型及其参数
- 预测输出
- 模型的训练
4.1 数据源及重要特征
4.2. 训练参数优化 - 模型训练的应用实践代码
- 关于fit()与train()的区别补充
5. 总结
基于特征工程和XGBoost算法的预测方法,是较为易用、预测效果的数据分析方法。其中,方法的中间过程所产生的特征可用于解释模型及业务,例如通过特征相关性、相似性、重要程度排序等分析,确定了对业务领域决策贡献度较高的特征。该研究有助于优化业务领域影响因素分析,为业务人员提供分析依据。
以上是关于Pandas高级数据分析快速入门——全过程综述及案例集锦的主要内容,如果未能解决你的问题,请参考以下文章