数据清洗之数据表处理筛选增删查改整理层次化索引

Posted 2021-03-12 xingnie

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据清洗之数据表处理筛选增删查改整理层次化索引相关的知识，希望对你有一定的参考价值。

数据清洗之数据表处理

1. 数据常用筛选方法

In [ ]:

import pandas as pd
import numpy as np

In [ ]:

import os
# 更改文件路劲
os.chdir(‘F:CSDN课程内容代码和数据‘)

In [ ]:

df = pd.read_csv(‘baby_trade_history.csv‘, encoding=‘utf-8‘,dtype={‘user_id‘:str})

数据筛选

查看数据

In [ ]:

df.info()

In [ ]:

df.head(5) #查看前5行

In [ ]:

df.tail(5) #查看后5行

In [ ]:

df.columns #查看变量名称（列）

简单索引

In [ ]:

df[‘user_id‘]

In [ ]:

df[‘user_id‘][1:5]# 第二行到第五行

In [ ]:

# 多个变量选择
df[[‘user_id‘,‘buy_mount‘,‘day‘]][:5]

loc和iloc 的使用

In [ ]:行

df.loc[3:4]# 选择行索引标签

In [ ]:列

df.loc[:,[‘user_id‘,‘buy_mount‘]]#选择某两列

In [ ]:行&列

df.loc[1:3,[‘user_id‘,‘buy_mount‘]] #loc在这里选择的是行索引标签

In [ ]:满足一个条件下某些列的值

df.loc[df.user_id ==‘786295544‘,[‘user_id‘,‘buy_mount‘,‘day‘]]

In [ ]:满足多个条件下某些列的值

df.loc[(df.user_id ==‘786295544‘) | (df.user_id ==‘444069173‘),[‘user_id‘,‘buy_mount‘,‘day‘]]# 多个条件选择

In [ ]:

#注意loc是标签

#注意iloc是位置

In [ ]:

df.iloc[:,1:4] #按照位置来选择第二列到第四列

In [ ]:

df.iloc[:,[0,2]] # 按照位置来选择第1列和第3列

In [ ]:用[1,2]来表示选取单独的某几列

df.iloc[3,[1,2]] #选择第4行，第2列和第3列数据, 这里的3代表的不是索引标签而是位置

In [ ]:

df.iloc[2:7,[1,2]] #选择第3行到第7行，第2列和第3列数据

注意loc和iloc的区别

In [ ]:行标签2～7的行

df.loc[2:7]

In [ ]:位置，第2～7行

df.iloc[2:7]

2.数据增加和删除

增加一列

In [ ]:

#增加一列,购买量,购买量超过3的为高，低于3的为底

In [ ]:

df[‘购买量‘] = np.where(df[‘buy_mount‘] >3,‘高‘,‘低‘)

In [ ]:

df

In [ ]:

# 增加行在dataframe中不常用，后面会用其他方法实现
# 可以使用append方法在 dataframe末尾实现

可以使用insert方法
df.insert(位置,变量名称，值)
将auction_id取出来，放在一列

In [ ]:

# 先将这一列取出来，赋值给对象auction_id,然后在数据中删除这一列，再将其添加进去

In [ ]:先找到

auction_id = df[‘auction_id‘]

In [ ]:删除原来的它

del df[‘auction_id‘]

In [ ]:在新的位置（这里是第一列）插入它

df.insert(0, ‘auction_id‘, auction_id)

In [ ]:

df.head(5)

删除

In [ ]:

# 删除这两列,加inplace代表是否在原数据上操作,1代表沿着列的方向
# 同时删除多个变量，需要以列表的形式
# 注意inplace =True,代表是否对原数据操作, 否则返回的是视图，并没有对原数据进行操作

In [ ]:

# labels表示删除的数据, axis表示作用轴，inplace=True表示是否对原数据生效,
# axis=0按行操作, axis=1按列操作

In [ ]:

axis = 0 对行

axis = 1 对列

df.drop(labels = [‘property‘, ‘购买量‘],axis = 1,inplace=True) #删除这两列,加inplace代表是否在原数据上操作, 1代表沿着列的方向

In [ ]:

# 按行删除法

In [ ]:

df.drop(labels = [3,4],inplace = True,axis= 0) # 删除索引标签3和4对应的行

In [ ]:

df.drop(labels= range(6,11),axis=0,inplace=True)  #删除索引名称1到10,注意range迭代器产生的是1到10

In [ ]:

# 查看
df

3. 数据修改和查找

In [ ]:

df1 = pd.read_csv(‘sam_tianchi_mum_baby.csv‘,encoding = ‘utf-8‘,dtype =str)

In [ ]:

df1.head(5)

In [ ]:

# 将gender为0的改为女性，1改为男性，2改为未知

In [ ]:

df1.loc[df[‘gender‘] ==‘0‘,‘gender‘] =‘女性‘

In [ ]:

df1.loc[df[‘gender‘] ==‘1‘,‘gender‘] =‘男性‘

In [ ]:

df1.loc[df[‘gender‘] ==‘2‘,‘gender‘] =‘未知‘

In [ ]:

df1.head(10)

修改列名称
basic.rename(columns={},index={})

In [ ]:

# 修改列标签和行索引名称
df1.rename(columns = {‘user_id‘:‘用户ID‘,‘birthday‘:‘出生日期‘,‘gender‘:‘性别‘},inplace = True)

In [ ]:

df1.rename(index = {1:‘one‘,10:‘ten‘ },inplace = True) #修改行索引名称

In [ ]:

df1.reset_index(drop=True,inplace=True)# 重置索引，变回0123456……

In [ ]:

df1.head(10)

查询

In [ ]:

# 条件查询
df[df.buy_mount > 3] #性别等于未知

In [ ]:

df[~(df.buy_mount > 3)] # ~代表非，取相反条件的

In [ ]:

df[ (df.buy_mount > 3) &  (df.day > 20140101)] # 多条件查询

In [ ]:

#使用between,。      inclusive=True代表包含（闭区间）
df[ df[‘buy_mount‘].between(4,10,inclusive=True)]

In [ ]:

# 使用pd.isin()方法
# 包含后面这几个数的‘auction_id‘的数据

df[df[‘auction_id‘].isin([41098319944, 17916191097,21896936223])]

4 数据整理

横向堆叠在数据清洗中不常用，纵向堆叠可以理解为把不同的表,字段名称一样。整合在一起

In [ ]:

import xlrd
workbook = xlrd.open_workbook(‘meal_order_detail.xlsx‘)
sheet_name = workbook.sheet_names() #返回所有sheet的列表

In [ ]:

sheet_name

In [ ]:

order1 = pd.read_excel(‘meal_order_detail.xlsx‘,sheet_name =‘meal_order_detail1‘)

In [ ]:

order2 = pd.read_excel(‘meal_order_detail.xlsx‘,sheet_name =‘meal_order_detail2‘)

In [ ]:

order3 = pd.read_excel(‘meal_order_detail.xlsx‘,sheet_name =‘meal_order_detail3‘)

In [ ]:枞向合并

order = pd.concat([order1,order2,order3],axis=0,ignore_index=False)# 忽略原来的索引，这样就不会覆盖了

In [ ]:

order1.shape

In [ ]:

# 通过循环方式进行合并

In [ ]:

basic = pd.DataFrame()
for i in sheet_name:
    basic_i = pd.read_excel(‘meal_order_detail.xlsx‘, header = 0,sheet_name=i,encoding=‘utf-8‘)
    basic = pd.concat([basic,basic_i],axis=0,ignore_index=False)

In [ ]:

basic.shape

关联
关联字段必须类型一致

In [ ]:

df = pd.read_csv(‘baby_trade_history.csv‘, encoding=‘utf-8‘,dtype={‘user_id‘:str})# 交易数据
df1 = pd.read_csv(‘sam_tianchi_mum_baby.csv‘,encoding = ‘utf-8‘,dtype =str)#婴儿信息

In [ ]:关联

df2 = pd.merge(left = df, right=df1,  how=‘inner‘,  left_on=‘user_id‘, right_on = ‘user_id‘)      #how=‘inner‘内连接

In [ ]:

df2.head(10)

5 层次化索引

In [ ]:

df = pd.read_csv(‘baby_trade_history.csv‘, encoding=‘utf-8‘,dtype={‘user_id‘:str},index_col=[3,0])

#index_col=[3,0]将数据第4列和第1列当成索引 
#dtype={‘user_id‘:str}改变数据类型

In [ ]:

df.loc[28] #第一层引用

In [ ]:

df.loc[28].loc[[82830661,532110457]]#第二层引用

直接引用两层
df3.loc[(a,b),:] #a和b分别代表第一层和第二层的索引
接受tuple

In [ ]:

df.loc[(28,[82830661,532110457]),:]# 第二层索引选择，多个选择

In [ ]:

df.loc[(28,[82830661,532110457]),[‘auction_id‘,‘cat_id‘]]# 第二层索引选择，选择2个变量

In [ ]:

df.loc[([28,50014815])] #第一层索引为28和50014815

以上是关于数据清洗之数据表处理筛选增删查改整理层次化索引的主要内容，如果未能解决你的问题，请参考以下文章

sql连接查询中on筛选与where筛选的区别

数据结构学习笔记（数据结构概念顺序表的增删查改等）详细整理

Mysql基础命令整理（增删查改）

MySQL 表的增删查改

数据结构之顺序表的增删查改等操作详解

数据清洗之数据表处理 筛选 增删查改 整理 层次化索引

数据清洗之数据表处理

1. 数据常用筛选方法

数据筛选

2.数据增加和删除

3. 数据修改和查找

4 数据整理

5 层次化索引

数据清洗之数据表处理筛选增删查改整理层次化索引