pandas概述

Posted watalo

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas概述相关的知识,希望对你有一定的参考价值。

Pandas 概述

Pandas是python中运用很广泛的统计分析库,用于各种金融、工业、等等统计分析,适用于各种时间序列和面板数据等。而对应于Pandas库,最主要的两个类分别是Series和DataFrame。Pandas是numpy的一种扩展,因此很多高级的数据计算方法也是来源numpy。

长远目标

成为最强大、最灵活、可以支持任何语言的开源数据分析工具

适用的数据类型

  • 与 SQL 或 Excel 表类似的,含异构列的表格数据;

  • 有序和无序(非固定频率)的时间序列数据;

  • 带行列标签的矩阵数据,包括同构或异构型数据;

  • 任意其它形式的观测、统计数据集, 数据转入 Pandas 数据结构时不必事先标记。

Pandas 的主要数据结构是 Series(一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。对于 R 用户,DataFrame 提供了比 R 语言 data.frame 更丰富的功能。Pandas 基于 NumPy 开发,可以与其它第三方科学计算支持库完美集成。

优势

  • 处理浮点与非浮点数据里的缺失数据,表示为 NaN

  • 大小可变:插入或删除 DataFrame 等多维对象的列;

  • 自动、显式数据对齐:显式地将对象与一组标签对齐,也可以忽略标签,在 Series、DataFrame 计算时自动与数据对齐;

  • 强大、灵活的分组(group by)功能:拆分-应用-组合数据集,聚合、转换数据;

  • 把 Python 和 NumPy 数据结构里不规则、不同索引的数据轻松地转换为 DataFrame 对象;

  • 基于智能标签,对大型数据集进行切片花式索引子集分解等操作;

  • 直观地合并(merge)连接(join)数据集;

  • 灵活地重塑(reshape)透视(pivot)数据集;

  • 支持结构化标签:一个刻度支持多个标签;

  • 成熟的 IO 工具:读取文本文件(CSV 等支持分隔符的文件)、Excel 文件、数据库等来源的数据,利用超快的 HDF5 格式保存 / 加载数据;

  • 时间序列:支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。

其它说明

  • Pandas 速度很快。Pandas 的很多底层算法都用 Cython 优化过。然而,为了保持通用性,必然要牺牲一些性能,如果专注某一功能,完全可以开发出比 Pandas 更快的专用工具。

  • 官方文档:https://pandas.pydata.org/docs/

数据结构

维数名称描述
1 Series 带标签的一维同构数组
2 DataFrame 带标签的,大小可变的,二维异构表格

以上是关于pandas概述的主要内容,如果未能解决你的问题,请参考以下文章

text [检查特定的数据片段]取自论文但有意思应用。 #python #pandas

Reactreact概述组件事件

pandas概述

Python:用于元组的 Pandas DataFrame

Pandas 数据类型概述与转换实战

pandas 求两个时间差, 转化秒,判断时间差是否大于阈值