Pandas高级数据分析快速入门——全过程综述及案例集锦

Posted 肖永威

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Pandas高级数据分析快速入门——全过程综述及案例集锦相关的知识,希望对你有一定的参考价值。

随着数字化转型的发展,大数据人工智能计算日臻完善,数据与分析将成为企业战略的核心,企业必须高度重视并大力投入。

1. 概述

1.1. Pandas高级数据分析知识体系

基于Pandas高级数据分析,知识技能包括:数据的读写、表内操作、表间操作(例如关系型数据库表关联,Excel sheet关联等)、统计功能、分析计算(基于大数据机器学习高级分析计算)、可视化图表等。

其中,数据层面使用常用的CSV数据文件,以及Clickhouse数据仓库和文档型数据库Mongo DB。

1.2. 高级数据分析过程

数据分析过程较为复杂,涉及到数据采集、数据治理、建立数据仓库、特征工程、建立算法模型、模型训练等工作,本文以数据分析师的视角,只学习掌握数据采集、特征工程、建立算法模型、模型训练等知识技术内容。

1.3. 快速入门环境

1.3.1. 软件开发环境

软件开发环境为windows 10(也可以使用Centos 7),python为3.6.X,开发工具为Jupyter Notebook,建议计算机内存大于16G,互联网网络顺畅。

1.3.2. 业务场景

(1). pandas基本操作使用田径运动员简单数据演练

(2). 数据高级分析,使用少量、截取、脱密的客户加油交易数据

2. 快速入门基础

2.1. Pandas高级数据分析快速入门之一——Python开发环境篇

内容概述:

  1. Python是什么?
  2. 安装Python
  3. Python开发环境安装与配置
    2.1. 安装jupyter
    2.2. 开发环境汉化
    2.3. jupyter工具使用
  4. 高级数据分析工具安装
    3.1. Python工具包
    3.2. Python依赖

2.2. Pandas高级数据分析快速入门之二——基础篇

内容概述:

  1. Pandas构成
    0.1. 第一个DataFrame
    0.2. Pandas数据类型
    0.3. Pandas数据类型转换
    0.4. 用到的Python基础
    0.4.1. 序列(List)
    0.4.2. 字典
  2. 从读取通用数据文件开始
    1.1. 读XLS数据文件
    1.2. 读CSV数据文件
  3. 对表(DataFrame)增减数据
    2.1. 增减行数据
    2.1.1. 增加行
    2.1.2. 删除行
    2.2. 增减列数据
    2.2.1. 增加列数据
    2.2.2. 删除列数据
  4. 把数据保存到CSV文件
  5. DataFrame单元格操作
    4.1. 读取单元格数据
    4.2. 修改单元格数据
  6. 读取Clickhouse数据

2.3. Pandas高级数据分析快速入门之三——数据挖掘与统计分析篇

内容概述:

  1. 前言
  2. 原数据挖掘——交易明细
    1.1. 读取原数据
    1.2. 时序数据挖掘
    1.3. 数据计算
    1.4. 挖掘数据周期维度
    1.5. 表关联(merge)
    1.6. 小结
  3. 常用特征提取——极限值与统计值
    2.1. 最后一次交易关键特征
    2.2. 关键极值特征
    2.3. 累计/均值/计数等通常特征
    2.4. 方差/标准差等波动特征
    2.5. 其他
  4. 按周期统计分析数据
    3.1. 月周期
    3.2. 月特征提前——极限值与统计值

2.4. Pandas高级数据分析快速入门之四——数据可视化篇

内容概述:

  1. 关于Matlibplot
  2. Pandas绘图
    2.1. 画直方图
    2.2. 画密度图曲线图
    2.3. 画折线图
    2.4. 画柱状图
    2.5. 画饼状图
    2.6. 画条形图
  3. 复杂图形
    3.1. 热力图(皮尔逊相关)
    3.2. 雷达图

2.5. Pandas高级数据分析快速入门之五——机器学习特征工程篇

内容概述:

  1. Pandas高级数据分析使用机器学习概述
  2. 线性回归计算斜率和方差
  3. 数据密度计算正常状态/周期
  4. 相关分析计算特征间关系
  5. 归一化、标准化
  6. 聚类——KMean
  7. 小结

2.6. Pandas高级数据分析快速入门之六——机器学习预测分析篇

内容概述:

  1. 训练集、测试集
  2. XGBoost分类模型训练
    1.1. 输入数据集
    1.2. 超参数设置
    学习任务参数objective
    验证数据的评估指标eval_metric [根据目标默认]
    Tree Booster参数
    1.3. 模型训练
    1.4. 模型持久化
  3. 预测结果分析
    2.1. 重要特征
    2.2. 模型评估
  4. XGBoost分类持久化模型应用
    附录:参数
    学习任务参数objective
    验证数据的评估指标eval_metric [根据目标默认]

3. 延申阅读,常用实用操作与技巧

3.1. Pandas高级数据分析快速入门之数据筛选——分组排序筛选实践笔记

内容概述:

  1. 排序
  2. 分组筛选
    2.1. 分组后,筛选每组最后一条记录
    2.2. 分组后,筛选每组倒数第二条记录
    2.3. 分组后,筛选每组首条记录
    2.4. 分组后,筛选每组前两条记录(top2)
    2.5. 按条件筛选分组
    2.6. 分组后,按组筛选
    2.7. 分组后,使用Filter筛选

3.2. Pandas高级数据分析快速入门之数据编辑——删除行与列

内容概述:

  1. 删除行
    1.1. 按行索引删除行数据
    1.2. 分组删除最后一行数据
    1.3. 按条件查询删除行数据
    1.4. 按多个行索引删除多行
    1.5. 按行范围删除
  2. 删除列
    2.1. 方法一:drop
    2.2. 方法二:del
  3. 总结
    3.1. drop方法的用法
    3.2. 依赖切片操作

3.3. 在CentOS7上部署Python开发工具Jupyter Notebook的遭遇

内容概述:

  1. 安装Jupyter Notebook
  2. 部署Jupyter Notebook工作环境
    2.1. 创建配置文件及遇到“缺少libstdc++.so.6库”问题
    2.2. 配置工作环境
    2.3. 打开防火墙
  3. 启动jupyter notebook服务

3.4. Pandas高级数据分析快速入门之工具使用——Jupyter导出PDF问题

内容概述:

  • 安装Tex
  • 安装pandoc
  • 其他安装包

3.5. 数据处理技术、技巧集锦(Pandas、Numpy、List)

内容概述:

  1. pandas表合并
    1.1. 两个表横向按数据行值相同关联并集(以左表为基准表)
    1.2. 两个表横向按数据行值相同交集合并(两表交集)
    1.3. 两个表纵向合并
  2. pandas 分组过滤
    2.1. 分组及列名处理
    2.2. 过滤
  3. pandas表内数据处理
    3.1. pandas按列过滤字符串(滤除数字中非数字)
    3.2. Pandas字符串转换时间处理
    3.3. 数据滚动窗
    3.4. 时间特征提取
    3.5. 特征编码与特征增维
  4. pandas DateFrame表的行、列操作
    4.1. 取行和列的几种常用方式
    4.2. 插入列,重新排列
    4.3. 数据上移、下移一行
    4.4. 删除表最后一行、首行
    4.5. 修改列名
  5. Numpy与DataFrame相互转换
  6. list与pandas
    6.1. 移除(删除)某个值
    6.2. 字典与Pandas、Mongo操作
  7. Numpy数组/矩阵操作
    7.1. 二维数组,按行取数据(数组截断)
    7.2. 二维数组,取具体几列数据
    7.3. 二维数组,横向合并数据
    7.4. 二维数组,纵向追加行
  8. Pandas创建表
    8.1. 读取文件创建表
    8.2. 读取Mongo数据库数据创建表
    8.3. pandas转Json存储到Mongo
    8.4. Mongo与Pandas数据读取、存储实例代码

4. 相关内容

4.1. Python使用ClickHouse实践与踩坑记

内容概述:

  1. 关于ClickHouse使用实践
    1.1. ClickHouse 应用于数据仓库场景
    1.2. 客户端工具DBeaver
    1.3. 大数据应用实践
  2. Python使用ClickHouse实践
    2.1. ClickHouse第三方Python驱动clickhouse_driver
    2.2. 实践程序代码
  3. 总结

4.2. Python开发中使用Mongo DB入门实践

4.3. 应用XGboost实现多分类模型实践

内容概述:

  1. 输入数据
  2. 模型及其参数
  3. 预测输出
  4. 模型的训练
    4.1 数据源及重要特征
    4.2. 训练参数优化
  5. 模型训练的应用实践代码
  6. 关于fit()与train()的区别补充

5. 总结

基于特征工程和XGBoost算法的预测方法,是较为易用、预测效果的数据分析方法。其中,方法的中间过程所产生的特征可用于解释模型及业务,例如通过特征相关性、相似性、重要程度排序等分析,确定了对业务领域决策贡献度较高的特征。该研究有助于优化业务领域影响因素分析,为业务人员提供分析依据。

以上是关于Pandas高级数据分析快速入门——全过程综述及案例集锦的主要内容,如果未能解决你的问题,请参考以下文章

Pandas高级数据分析快速入门之数据编辑——删除行与列

Pandas高级数据分析快速入门之二——基础篇

Pandas高级数据分析快速入门之五——机器学习特征工程篇

Pandas高级数据分析快速入门之五——机器学习特征工程篇

Pandas高级数据分析快速入门之四——数据可视化篇

Pandas高级数据分析快速入门之一——Python开发环境篇