pandas 学习 第1篇:pandas基础

Posted ljhdo

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas 学习 第1篇:pandas基础相关的知识,希望对你有一定的参考价值。

pandas是基于NumPy构建的模块,含有使数据分析更快更简单的操作工具和数据结构,包含序列Series和数据框DataFrame两种最主要数据结构。

一,pandas最重要的两种数据类型

数据框(DataFrame)类似于二维的关系表,每列的数据类型是相同的,列与列的数据类型可以不同,也可以相同。数据框的结构是行和列,列有列名,行有行索引,行索引还可以设置标签。

序列(Series)可以认为是二维表中的一列,因此,可以把数据框的一列转换为序列。在pandas中,序列是具有单一类型的一维数组,表示多行一列的数据结构,由于一列中的元素必须是相同的,因此,序列中的数据具有相同的数据类型。和数据框一样,序列具有行索引和行标签属性,每行都有一个索引和行标签。

二,pandas的数据类型

用dtype属性来显示元素的数据类型,pandas主要有以下几种dtype:

  • object:表示字符串类型
  • int:表示整数类型
  • float:表示浮点数类型
  • datetime:表示时间类型
  • bool:表示布尔类型
  • category:分类

三,pandas的优势

  • 轻松处理数值型数据中的缺失数据(表示为Nan)
  • 可以从DataFrame和Series中插入和删除行数据和列数据,行和列都是可以变化的
  • 自动数据对齐
  • 可以对数据进行分组聚合操作
  • 强大的IO工具,用于从平面文件(CSV或格式化文件),Excel文件数据库加载数据
  • 时间序列处理,能够生成日期范围、进行移动窗口统计、移动窗口线性回归、日期转换等操作

 

参考文档:

pandas overview

 

以上是关于pandas 学习 第1篇:pandas基础的主要内容,如果未能解决你的问题,请参考以下文章

Pandas 学习 第2篇:pandas 的 Series

Pandas高级数据分析快速入门之五——机器学习特征工程篇

Pandas高级数据分析快速入门之五——机器学习特征工程篇

100天精通Python(数据分析篇)——第53天:初始pandas模块

Pandas高级数据分析快速入门之六——机器学习预测分析篇

100天精通Python(数据分析篇)——第72天:Pandas文本数据处理方法之判断类型去除空白字符拆分和连接