Pandas的DataFrame的生产,DF数据查看
Posted 大锤爱编程
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Pandas的DataFrame的生产,DF数据查看相关的知识,希望对你有一定的参考价值。
这篇文档介绍了 Pandas 的入门使用方法。Pandas 是 Python 的一个数据分析库,可以方便地操作数据和进行数据分析。
本节以下列方式导入 Pandas 与 NumPy:
In [1]: import numpy as np
In [2]: import pandas as pd
#生成对象
用值列表生成 Seriesopen in new window 时,Pandas 默认自动生成整数索引:
In [3]: s = pd.Series([1, 3, 5, np.nan, 6, 8])
In [4]: s
Out[4]:
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
用含日期时间索引与标签的 NumPy 数组生成 DataFrameopen in new window:
In [5]: dates = pd.date_range('20130101', periods=6)
In [6]: dates
Out[6]:
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
'2013-01-05', '2013-01-06'],
dtype='datetime64[ns]', freq='D')
In [7]: df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
In [8]: df
Out[8]:
A B C D
2013-01-01 0.469112 -0.282863 -1.509059 -1.135632
2013-01-02 1.212112 -0.173215 0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929 1.071804
2013-01-04 0.721555 -0.706771 -1.039575 0.271860
2013-01-05 -0.424972 0.567020 0.276232 -1.087401
2013-01-06 -0.673690 0.113648 -1.478427 0.524988
用 Series 字典对象生成 DataFrame:
In [9]: df2 = pd.DataFrame('A': 1.,
...: 'B': pd.Timestamp('20130102'),
...: 'C': pd.Series(1, index=list(range(4)), dtype='float32'),
...: 'D': np.array([3] * 4, dtype='int32'),
...: 'E': pd.Categorical(["test", "train", "test", "train"]),
...: 'F': 'foo')
...:
In [10]: df2
Out[10]:
A B C D E F
0 1.0 2013-01-02 1.0 3 test foo
1 1.0 2013-01-02 1.0 3 train foo
2 1.0 2013-01-02 1.0 3 test foo
3 1.0 2013-01-02 1.0 3 train foo
DataFrame 的列有不同**数据类型open in new window**。
In [11]: df2.dtypes
Out[11]:
A float64
B datetime64[ns]
C float32
D int32
E category
F object
dtype: object
IPython支持 tab 键自动补全列名与公共属性。下面是部分可自动补全的属性:
In [12]: df2.<TAB> # noqa: E225, E999
df2.A df2.bool
df2.abs df2.boxplot
df2.add df2.C
df2.add_prefix df2.clip
df2.add_suffix df2.clip_lower
df2.align df2.clip_upper
df2.all df2.columns
df2.any df2.combine
df2.append df2.combine_first
df2.apply df2.compound
df2.applymap df2.consolidate
df2.D
列 A、B、C、D 和 E 都可以自动补全;为简洁起见,此处只显示了部分属性。
#查看数据
下列代码说明如何查看 DataFrame 头部和尾部数据:
In [13]: df.head()
Out[13]:
A B C D
2013-01-01 0.469112 -0.282863 -1.509059 -1.135632
2013-01-02 1.212112 -0.173215 0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929 1.071804
2013-01-04 0.721555 -0.706771 -1.039575 0.271860
2013-01-05 -0.424972 0.567020 0.276232 -1.087401
In [14]: df.tail(3)
Out[14]:
A B C D
2013-01-04 0.721555 -0.706771 -1.039575 0.271860
2013-01-05 -0.424972 0.567020 0.276232 -1.087401
2013-01-06 -0.673690 0.113648 -1.478427 0.524988
显示索引与列名:
In [15]: df.index
Out[15]:
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
'2013-01-05', '2013-01-06'],
dtype='datetime64[ns]', freq='D')
In [16]: df.columns
Out[16]: Index(['A', 'B', 'C', 'D'], dtype='object')
DataFrame.to_numpy()open in new window 输出底层数据的 NumPy 对象。注意,DataFrameopen in new window 的列由多种数据类型组成时,该操作耗费系统资源较大,这也是 Pandas 和 NumPy 的本质区别:NumPy 数组只有一种数据类型,DataFrame 每列的数据类型各不相同。调用 DataFrame.to_numpy()open in new window 时,Pandas 查找支持 DataFrame 里所有数据类型的 NumPy 数据类型。还有一种数据类型是 object
,可以把 DataFrame 列里的值强制转换为 Python 对象。
总结
使用 Pandas 的 DataFrame,可以进行以下操作:加载和处理数据,包括 CSV、Excel、SQL 数据库等格式的数据进行数据清洗、重塑、切片和切块统计数据、计算聚合和汇总信息进行数据可视化将结果保存到各种格式的文件中将数据上传到数据库或在线应用程序、以其他格式输出数据,例如 html 表格。
已知df为pandas的DataFrame对象,怎么查看+前10行数据?(+)
参考技术A df.head(10)df.tail 查看后面的
以上是关于Pandas的DataFrame的生产,DF数据查看的主要内容,如果未能解决你的问题,请参考以下文章
已知df为pandas的DataFrame对象,怎么查看+前10行数据?(+)
pandas实现两个dataframe数据的合并:按行和按列
python:pandas之DataFrame取行列(df.loc(),df.iloc())以及索引