使用pandas进行数据预处理01

Posted tianqianlan

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用pandas进行数据预处理01相关的知识,希望对你有一定的参考价值。

            数据预处理有四种技术:数据合并,数据清洗,数据标准化,以及数据转换。

数据合并技术:(1)横向或纵向堆叠合数据 (2)主键合并数据 (3)重叠合并数据

1.堆叠合并数据:

  堆叠就是简单的把两个表拼接在一起,也被称作轴向连接,绑定,或连接。依照连接轴的方向,数据堆叠可分为横向堆叠和纵向堆叠。

 (1)横向堆叠,即将两个表在x轴向拼接在一起,可以使用concat函数完成。基本语法为pandas.concat()。当两个表索引不完全一样时,

,可以使用join参数选择是内连接还是外连接。在内连接的情况下,仅仅返回索引重叠部分;在外连接的情况下,则显示索引的并集部分数

据,不足的地方则使用空值填补。原理如下:

技术分享图片

 

 (2)纵向堆叠,是将两个数据表在y轴向上拼接。concat函数和append方法两者都可以实现纵向堆叠。使用concat函数时,默认情况下,即axis=0时,concat做列对齐,将不同索引的两张或多张表纵向合并。axis=1是横向对齐,将不同列名称的两张或多张表合并。使用append方法有一个前提条件,就是两张表的列名需要完全一致。原理如下:

技术分享图片

 

 (3)主键合并数据,即通过一个或多个键将两个数据集的行连接起来。pandas库中的merge函数和join方法都可以实现主键合并。但是使用join方法,两个主键的名字必须相同,基本原理如下:

技术分享图片

 (4)重叠合并数据:使用combine_first()方法。基本原理如下:

技术分享图片

 

以上是关于使用pandas进行数据预处理01的主要内容,如果未能解决你的问题,请参考以下文章

为啥使用numpy和pandas来进行数据处理?

Pandas pipe: 一种更优雅的数据预处理方法!

python pandas 对带时间序列的数据进行重采样处理

请教用pandas处理数据时,如何对行数据进行筛选并赋值处理

请教用pandas处理数据时,如何对行数据进行筛选并赋值处理

pandas处理丢失数据-老鱼学pandas