27000字,103天,16篇:深入浅出Pandas数据分析

Posted 尤尔小屋的猫

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了27000字,103天,16篇:深入浅出Pandas数据分析相关的知识,希望对你有一定的参考价值。

深入浅出Pandas数据分析

大家好,我是Peter~

《深入浅出Pandas数据分析》第一版本终于可以和大家见面咯!文末有资料领取方式

从4月24号的第一篇Pandas文章:《一切从爆炸函数开始》,到昨天8月5号的《图解Pandas的轴旋转函数:stack和unstack》,总共历时103天,让Pandas来见证吧:

两行代码告诉你两个日期之间的时间差,这就是Pandas👏

什么是Pandas

什么是Pandas?引用一段来自Pandas中文官网的解释:

Pandas 是 Python的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具

简单解释:Pandas是Python的第三库中数据处理和分析最厉害的一个库!

Pandas能处理什么数据

Pandas是一个强大的数据分析库,那它能够处理哪些类型的数据?

  • 类似SQL和Excel的表格型数据
  • 有序和无序的时间序列数据,常用在金融领域
  • 带行列标签的矩阵数据,因为Pandas本身也是基于Numpy开发

103天我写了什么

这103天总共更新了16篇关于Pandas的文章:

第一篇:一切从爆炸函数开始

这篇文章主要讲解的是Pandas中一个函数的使用:explode

它实现的是类似hive中explode函数的功能:从左边的信息统计出右边的信息

第二篇:Series类型数据

Pandas中有两种数据类型,其中一种就是Series。

Series 是一维数组结构,它仅由index(索引)和value(值)构成的。

第三篇:创建DataFrame:10种方式任你选

第三篇文章介绍的是Pandas中最常用的一种数据结构:DataFrame 的10种创建方式。

DataFrame 是将数个 Series 按列合并而成的二维数据结构,每一列单独取出来是一个 Series ;除了拥有index和value之外,还有column

写完之后才想起来,漏了一种方式:通过剪贴板直接创建。当我们在剪贴板中准备好了数据,运行下面的语句就可以直接创建:

df = pd.read_clipboard()
df

第四篇:各种骚气的Pandas取数操作

前两篇文章介绍了Series和DataFrame两种数据结构的创建,那么接下来介绍的是:如何从中取数我们想要的数据。

Pandas中取数的方式真的是五花八门,所以总共花了3篇文章。第四篇文章中的方法主要是:

第五篇:赞!五花八门的Pandas筛选数据

也是关于Pandas中取数的文章,主要介绍的是:

第六篇:最后一篇:玩转Pandas取数

最后一篇介绍如何在Pandas中取数,重点介绍了3对函数:它们使用的时候有细微的区别

第七篇:数据处理的基石:数据探索

在我们拿到数据导入到Pandas,进行后续的处理之前,我们需要先查看下数据的基本信息,对这份数据有一个初步的了解,一般包含如下信息:

第八篇:Pandas数据类型操作

Pandas在处理数据的时候,保证数据类型的准确非常重要,第八篇文章主要是介绍了3种常见的数据类型转换方法+数据类型筛选的方法:

  • 使用astype()函数进行强制类型转换
  • 通过自定义函数来进行数据类型转换
  • 使用Pandas提供的函数如to_numeric()、to_datetime()等进行转化
  • select_dtypes函数的使用

第九篇:图解Pandas的groupby机制

groupby分组统计是工作和数据处理工程中常见的一种方法。这篇文章详解了groupby的内部机制。

第十篇:图解Pandas的排名rank机制

本篇文章主要是类比SQL中的排名和窗口函数,介绍了如何利用Pandas的rank函数来实现:

  • row_number:顺序排名,rank函数的中的method=first
  • rank:跳跃排名,rank函数的中的method=min
  • dense_rank:密集排名,rank函数的中的method=dense

第十一篇:图解Pandas的排序机制sort_values

有了排名,必然也要来实现一下排序。排序sort_values函数在平时使用的频率是非常高的,经常需要对销售数据做TopN分析,就需要分组统计数据之后再进行一下排序。

第十二篇:图解Pandas的缺失值处理

一般情况下,数据都不是完美的。需要我们进行前期的各种处理操作,对缺失值的处理就是其中之一。

本篇文章主要是介绍了利用Pandas处理缺失值,包含:对缺失值的判断、删除缺失值、填充缺失值:

  • df.isnull()、df.notnull():两个函数互为取反
  • df.isna():等同于df.isnull()
  • df.dropna():删除缺失值
  • df.fillna():填充缺失值

第十三篇:图解Pandas重复值处理

数据中存在重复值也是常有的情况,本篇文章中主要是介绍了重复值处理的两种方式:

  • duplicated():判断是否有重复值
  • drop_duplicates() :删除重复值

第十四篇:挑战SQL:图解Pandas的数据合并merge

在实际的业务需求中,我们的数据可能存在于不同的库表中,SQL可以通过各种join来实现,Pandas中主要是通过merge函数来实现的。

在这篇文章中详细介绍了merge的各个参数如何使用:

pd.merge(left,   # 待合并的2个数据框
         right, 
         how='inner',  # ‘left’, ‘right’, ‘outer’, ‘inner’, ‘cross’
         on=None, # 连接的键,默认是相同的键
         left_on=None,  # 指定不同的连接字段:键不同,但是键的取值有相同的内容
         right_on=None, 
         left_index=False,   # 根据索引来连接
         right_index=False, 
         sort=False, # 是否排序
         suffixes=('_x', '_y'),   # 改变后缀
         copy=True, 
         indicator=False,   # 显示字段来源
         validate=None)

第十五篇:图解Pandas数据合并:concat、join、append

Pandas中除了常用的merge函数来实现数据合并,还有3个函数也能实现部分的合并功能:concat、join、append;尤其是concat,其实也挺常用的。

concat参数:

pandas.concat(objs,  # 合并对象
              axis=0,   # 合并方向,默认是0纵轴方向
              join='outer', # 合并取的是交集inner还是并集outer
              ignore_index=False, # 合并之后索引是否重新
              keys=None, # 在行索引的方向上带上原来数据的名字;主要是用于层次化索引,可以是任意的列表或者数组、元组数据或者列表数组
              levels=None, # 指定用作层次化索引各级别上的索引,如果是设置了keys
              names=None, # 行索引的名字,列表形式
              verify_integrity=False, # 检查行索引是否重复;有则报错
              sort=False, # 对非连接的轴进行排序
              copy=True   # 是否进行深拷贝
             )

join参数:

dataframe.join(other,  # 待合并的另一个数据框
        on=None,  # 连接的键
        how='left',   # 连接方式:‘left’, ‘right’, ‘outer’, ‘inner’ 默认是left
        lsuffix='',  # 左边(第一个)数据框相同键的后缀
        rsuffix='',  # 第二个数据框的键的后缀
        sort=False)  # 是否根据连接的键进行排序;默认False

append主要参数:

DataFrame.append(
  other,  # 追加对象
  ignore_index=False,  # 是否保留原索引
  verify_integrity=False, # 检查行索引是否重复;有则报错
  sort=False)

第十六篇:图解Pandas的轴旋转函数stack和unstack

stack和unstack也是一对互为逆操作的函数,它们二者的作用的是对Pandas的数据轴进行旋转,二者特点为:

  • stack: 将数据的列columns转旋转成行index
  • unstack:将数据的行index旋转成列columns
  • 二者默认操作的都是最内层

来自官网的两张图来解释二者的用法:

文章有什么特色

在写作的过程中,参考了官网和很多资料,也有自己平时使用的一些心得,同时也模拟了很多数据,总结下几个特色:

  • 案例丰富:每篇文章都是通过模拟来进行说明
  • 图文并茂:文章使用了大量的图形来解释函数的使用,更加直观,加深印象
  • 贴近现实:很多模拟数据都是可以直接套用在真实的业务场景中

后续工作

目前写的内容真的仅仅是Pandas库的冰山一角,还有很多的内容没有展开。但是如果读者能够认真看完,并且自己实际去运行和理解代码,相信还是会有很大的收获,入门pandas必定是问(听)题(你)不(吹)大(牛)!🐂

后续Pandas的文章会持续更新,这将是一个长期的过程。以后会带来更多高级使用技巧和案例,帮助读者掌握Pandas的使用。

领取方式:关注公众号[尤而小屋],回复Pandas即可领取

以上是关于27000字,103天,16篇:深入浅出Pandas数据分析的主要内容,如果未能解决你的问题,请参考以下文章

比特币跌破27000美元 币圈损失惨重,最高身价缩水近9成

万字长文超硬核详细学习系列——深入浅出Linux高级篇的知识点,值得你收藏学习必备

100天精通Python(数据可视化篇)——第77天:数据可视化入门基础大全(万字总结+含常用图表动图展示)

Mysql进阶优化篇01——四万字详解数据库性能分析工具(深入全面详细,收藏备用)

Linux疑难杂症解决方案100篇(十五)-万字长文带你深入Linux 内核学习:环境搭建和内核编译

Linux疑难杂症解决方案100篇(十五)-万字长文带你深入Linux 内核学习:环境搭建和内核编译