pandas DataFrame
Posted liulangmao
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas DataFrame相关的知识,希望对你有一定的参考价值。
之前介绍了numpy的二维数组,但是numpy二维数组有一些局限性,比如,它数组里所有的值的类型必须相同,不能某一列是数值型,某一列是字符串型,这样会导致无法使用 mean() , std() 等方法去计算某一行或某一列.
但是,使用pandas DataFrame可以解决这一问题. pandas DataFrame也是二维数据,和pandas Series一样, pandas DataFrame也有‘索引‘这个概念,它每一列都有一个索引值:
import pandas as pd df = pd.DataFrame({‘A‘: [0, 1, 2], ‘B‘: [3, 4, 5]}) print df # 结果: A B 0 0 3 1 1 4 2 2 5
其中 ‘A‘,‘B‘ 是索引值, [0,1,2] , [3,4,5] 是索引对应的数据,也就是列
默认情况下,调用方法是在列上调用:
print df.sum() # 结果: A 3 B 12
dtype: int64
返回一个pandas Series
如果需要在行上调用方法,可以设置 axis :
print df.sum(axis=1) # 结果: 0 3 1 5 2 7
dtype: int64
如果需要在整个DataFrame上调用方法,可以使用.values
print df.values.sum() # 结果: 15
以上是关于pandas DataFrame的主要内容,如果未能解决你的问题,请参考以下文章
pandas 求两个时间差, 转化秒,判断时间差是否大于阈值
Pandas.Dataframe.merge v Linq 加入
pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换
pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换