DataFrame概念与创建
Posted chengxin1982
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DataFrame概念与创建相关的知识,希望对你有一定的参考价值。
一 概念 Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的、只有一个column的DataFrame; DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column并schema化的2维结构化数据,可视作为Series的容器(container); Panel,为3维的结构化数据,可视作为DataFrame的容器; 二 创建DataFrame # 标准创建 df2 = pd.DataFrame(np.arange(16).reshape((4,4)),index=[‘a‘,‘b‘,‘c‘,‘d‘], columns=[‘one‘,‘two‘,‘three‘,‘four‘]) print "df2 =", df2 # 用传入等长列表组成的字典来创建(用DataFrame自带索引) 自带列名 data={‘c‘:[‘1‘,‘2‘],‘a‘:[‘5‘,‘6‘]} df=pd.DataFrame(data) print "df =", df # 传入嵌套字典(字典的值也是字典)创建DataFrame (使用字典内嵌索引) 自带列名 nest_dict = {‘shanghai‘: {2015: 100, 2016: 101}, ‘beijing‘: {2015: 102, 2016: 103}} df1=pd.DataFrame(nest_dict) print "df1 =", df1 # 传入Series (带大括号,另外需加列名) list = [‘1‘, ‘2‘, ‘3‘, ‘4‘] s= pd.Series(list, index=[‘a‘, ‘b‘, ‘c‘, ‘d‘]) df1=pd.DataFrame({"A": s}) print "df1 =", df1 print df1 三
以上是关于DataFrame概念与创建的主要内容,如果未能解决你的问题,请参考以下文章
Spark成长之路(13)-DataSet与DataFrame
Python--Pandas.2(DataFrame的概念和创建,索引,基本操作)