Pandas 入门

Posted 2023-02-28

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Pandas 入门相关的知识，希望对你有一定的参考价值。

参考技术A

pd.Series 主要设置两个参数，data 和 index，如果不设置 index，则 index 从 0 开始递增。除此之外，还可以设置 dtype。

除了直接设置各个字段，还可以将字典作为参数传入，series 会自动将 key 作为 index，将 value 作为 data。

为了保证数据存取的效率，series 的 index 必须是可哈希的。

series 和字典一样，索引和修改的时间复杂度为。它有两种索引方式，第一种索引方式与字典相同，但强烈不推荐，会导致各种副作用：

在某些情况下，它会产生歧义：

第二种索引方式是采用 .loc 方法，这种写法是推荐的：

注意一个细节：利用 index 做切片时，和 list 或者 array 利用下标切片，不包括末尾元素不同，index 切片是包括 end 元素的。
除了利用 index 切片，Series 也可以用下标切片，此时不包括终点下标对应的元素，表现和 python 惯例一致：

不像字典的 key 是唯一的，Series 支持 index 包含重复元素。但对 Series 做切片时，如果重复的 index 不是相邻的，则会报错："Cannot get left\\right slice bound for non-unique label: \'xxx\' "。

因此强烈建议先对 index 排序，这样可以保证切片能够一直能正确运行，并且还能提高索引的效率。

和 numpy 一样，Series 也支持高级索引：

两个 Series 可以相加，只有相同 label 的数据会相加，只存在于其中一个 Series 的数据相加后为 NaN，但也可以指定一方缺失的 label 对应的默认值：

需要注意的是，在操作过程中， series value 的数据类型可能会隐式地被改变，如果不注意，很有可能影响增删的效率，甚至产生错误的结果。

影响效率的例子：

产生错误结果的例子：

DataFrame 还支持广播功能：

可以将 DataFrame 保存为 csv 文件或 json 文件

包括一系列函数：

p.describe() 默认只显示数字列，但也可以设置参数 include=\'all\' 现实所有列。
p.loc[\'sonia\'] 展示 sonia 行
p.loc[\'sonia\', \'age\'] 只显示 sonia 的年龄

筛选出女性条目：

增加年龄筛选条件：

DataFrame.mean() 可以按列计算平均值

几种不建议的写法：

p.drop(columns=[\'mean\', ], inplace=True) 用于删除一列或多列， inplace 作用是，设置是否修改原来的 p，如果True，返回 None，原 p 被修改，如果 False，返回被修改后的 DataFrame，同时原 p 保留。

DataFrame 支持所有 numpy 的函数，numpy 函数可以直接施加在 DataFrame 上，例如：

但是，如果需要用到 DataFrame 的 label 对齐特性，例如两个 index 顺序并不相同的 DataFrame 相加，那么 numpy 的函数将直接计算中间的 values，而不会考虑它们 label 对齐的问题。（该问题已经在 pandas 0.2.5 中被修正）

运算中设置 fill_value 可以让表中缺失的数据被 fill_value 代替。

当一个 Series 和一个 DataFrame 相加时，pandas 会默认 Series 是一行，并把它广播到其它行。Series 的 index 会被对应到 DataFrame 的列上，并对齐。如果 Series 的 index 与 DataFrame 的列没关系，那么会扩增 DataFrame，扩增区域对应的数据为 NaN。如果想让 Series 的 index 和 DataFrame 的index 对应，则需要指定 axis=0：

在构建 pandas Series 或者 DataFrame 时，有两种方式可以表示 NaN，一种是 np.NaN ，另一种是python 的 None 对象。 np.NaN 的数据类型是 float ，因此，在 pandas 中，存在 NaN 的对象要么是 float64 的，要么是 object 类型。

pandas 利用如下方法处理缺失数据：

MultiIndex 适用于数组大于二维的情况。所有可以用 Index 的地方，都可以用 MultiIndex 。
MultiIndex Series

MultiIndex DataFrame 利用 from_product 可以方便地创建 MultiIndex。

MultiIndex DataFrame 的索引十分方便

元组配合 slice ，为 MultiIndex DataFrame 做切片：

concat 用于将两个表拼接起来，它适用于两个表有相同的 index 或者有相同的 columns。

concat 也适用于拼接 Series，但是不论是 DataFrame 还是 Series，它不会检查各行的 index 是否重复。

一个解决方案是设置 verify_integrity 参数，它会在遇到两个相同 index 的时候报错。但是这无疑会导致额外的计算，因此除非确实必要，一般不设置它。

设置拼接参数

merge 适用于两个表某列相同，然后所有的融合都基于该列：

merge 默认采取 inner join 的策略，如果以某列为基准，那么最终结果中，只有同时出现在这两列中的数据被保留。
总共有三种merge 的方式：

merge 可以设置 on= 或者 left_on= 、 right_on= 显式指定基准列

当两表中的基准列元素不完全一致时，通过设置 how 有四种 merge 策略：

groupby 按照某个指标聚类，分别计算各类数据

groupby 返回值的属性：

groupby 方法分发。 groupby 返回的对象如果没有实现某个 DataFrame的方法，该对象仍然可以调用，只不过是遍历每个类别，分别调用。

groupby().agg 方法：agg 中以 list/dict 形式传入函数名（或名字的字符串），计算每个组的统计量。

groupby().filter() filter 内传入筛选条件，可以是 lambda 表达式

groupby().transform() transform 内传入变换函数，如 lambda 表达式，变换函数将施加在每个子 group 上，一个经典用例是用它来对每个 group 内部中心化，或者用group 均值代替其中的 NaN。

以 titanic 的例子，我们希望得到这样的表格：有三行，每行代表一个舱位级别；有两列，每列代表一个性别。此时需要用到 pivot_table 。 pivot_table 相当于把 groupby 的结果表示为二维表格。

numpy 和 pandas 可以很好地处理各种格式的时间字符串，将其转化为标准格式。同时提供了一系列方法，对时间序列求区间、采样等等。

以上是关于Pandas 入门的主要内容，如果未能解决你的问题，请参考以下文章