Python 使用Sidetable探索数据集

Posted 卖山楂啦prss

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 使用Sidetable探索数据集相关的知识,希望对你有一定的参考价值。

在对数据集进行探索时,我经常使用的语句包括

df.shape
df.head()
df.columns
df.sample(n=10)
df.info(verbose=True)
df['x1'].value_counts()
df['x1'].value_counts(normalize=True)
df['x1'].unique()
nunique()
groupby
describe()
describe(include = 'all').T 
df.isnull().sum() 
print("数据集中有%s列重复行" % (df.shape[0] - df.drop_duplicates().shape[0]))
df.duplicated().sum()
df.corr()
sns.countplot
sns.distplot
sns.kdeplot
sns.heatmap
...

最近呢,又学习了一个新的数据探索包——Sidetable,懒得介绍了,百度有很多,其实看一下代码+结果,就知道咋用了,非常舒适~

安装

pip  install  -i  https://pypi.doubanio.com/simple/  --trusted-host pypi.doubanio.com  sidetable

数据:http://www.statsci.org/data/general/fev.html

import sidetable
import pandas as pd
df=pd.read_excel(r'C:\\Users\\ABC\\Desktop\\data.xlsx')
df.head()

df.stb.freq(['Age'])

# 查看累计百分比小于55%的数据
df.stb.freq(['Age'], thresh=55)



# 百分比显示格式
df.stb.freq(['Sex', 'Smoker'],style=True)

# 按照Sex聚合,求FEV的sum
df.stb.freq(['Sex'], value='FEV')

pd.set_option('display.max_columns',None)  # 全部列
df.stb.counts()

# 缺失值,当然这里数据集没有缺失值
df.stb.missing()

# 显示小计和总计
df.groupby(['Sex','Smoker']).agg('FEV':['sum']).stb.subtotal()

以上是关于Python 使用Sidetable探索数据集的主要内容,如果未能解决你的问题,请参考以下文章

Python数据分析(八):农粮组织数据集探索性分析(EDA)

python数据挖掘之数据探索第一篇

python进行探索性数据分析EDA(Exploratory Data Analysis)分析

YYDS!几行Python代码,就实现了全面自动探索性数据分析

YYDS!几行Python代码,就实现了全面自动探索性数据分析

区区几行代码,就能全面实现 Python 自动探索性数据分析