统计关系的数据可视化

Posted 老坛学Python

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计关系的数据可视化相关的知识,希望对你有一定的参考价值。


今日主题:seaborn库中可视化数据关系的实践操作,我们一起来耍一耍scatterplot()、lineplot()和relplot()这三个函数。




 数据可视化的意义


每一天我们都会获得到各种各样的数据,为了问题的解决,我们需要适当的做一些数据的分析,其中最直观的方式就是绘图,通过将数据转变为图表,我们能发现一些趋势,找到数据之间相互关系,从而 制定合理的方案进行问题的解决。下面我们依次耍耍 scatterplot()、lineplot()和relplot()这三个函数


  库导入与数据准备



玩耍中使用的是iris数据集,这个数据集一共有5个变量,分别是sepal_length(花萼长度)、sepal_width(花萼宽度)、petal_length(花瓣长度)、petal_width(花瓣宽度)、species(花种类)


import seaborn as snsimport matplotlib.pyplot as pltimport pandas as pd
iris = pd.read_csv('iris.csv', encoding='utf8')



 scatterplot()



这个函数的初始化需要传入这些参数:

seaborn.scatterplot(x=None, y=None, hue=None, style=None, size=None,  data=None, palette=None, hue_order=None,                     hue_norm=None, sizes=None, size_order=None                    size_norm=None, markers=True, style_order=None                    x_bins=None, y_bins=None, units=None, estimator=None, ci=95                    n_boot=1000, alpha='auto', x_jitter=None, y_jitter=None, legend='brief', ax=None, **kwargs)

其实之前的文章已经耍过这个函数了,这儿用用一点点代码让它刷下存在感。

# 记号的大小和类型分类来自于species下的变量,# 如果把sizes设置成10,那么标记的就喵喵大了,数字越大记号也越大# s:表示方框,d:表示菱形,^:表示三角形g = sns.scatterplot(x='sepal_length', y='petal_length', hue='species', palette='Set1', data=iris, edgecolor='black', hue_order=iris.species.value_counts().index, size='species', sizes=[10, 50, 100], style='species', markers=['s', 'd', '^'])plt.show()


统计关系的数据可视化(一)



linesplot()



这个函数,之前的推文还没介绍过,我们来看看有啥子不一样哒。

seaborn.lineplot(x=None, y=None, hue=None, size=None, style=None,                  data=None, palette=None, hue_order=None, hue_norm=None                 sizes=None, size_order=None, size_norm=None, dashes=True                 markers=None, style_order=None, units=None, estimator='mean'                 ci=95, n_boot=1000, seed=None, sort=True, err_style='band'                 err_kws=None, legend='brief', ax=None, **kwargs)

然后我们进行了如下的设置:

# 从效果上来看,marker只需要设置True或 False,程序会自动分配标记# 形状只有实线和虚线两种,分类越多,点越密集,这个功能由dashes控制# 默认请款下会对数据进行估计,并绘制数据的标准偏差带,类型有band(带状)、bars(条状)等# sizes 参数不能设置大了,毕竟是线了,设置4都感觉有些宽了。# sort参数需要保持默认缺省状态,如果数据集中的点不是按照由大到小或有小到大排列的话# 把sort设置成 False,绘图的时候,就会按照数据从数据集中出现的先后顺序来绘制图形了,# 那样的图可能就没有意义, 不是我们想要的了g = sns.lineplot(x='sepal_length', y='petal_length', hue='species', hue_order=['setosa', 'versicolor', 'virginica'], data=iris, palette='Set1', size='species', sizes=[1, 2, 3], style='species', markers=True, dashes=False, estimator='mean', err_style='bars', sort=True)
plt.show()


统计关系的数据可视化(一)



relplot()


预知后事如何,见下回分解....


— E N D —


 

“像海绵吸水一样学习知识”

ID : 老坛学Python

 记录·分享·成长

统计关系的数据可视化(一)

点“在看”给我一朵小黄花

以上是关于统计关系的数据可视化的主要内容,如果未能解决你的问题,请参考以下文章

数据可视化应用数据统计分析的显著性标注(附Python和R语言代码)

seaborn笔记:可视化统计关系(散点图折线图)

详解数据可视化神器 seaborn,它可快速实现统计数据可视化

python数据可视化有啥用

5行代码,带你完成数据可视化

《斗罗大陆》人物关系可视化