统计关系的数据可视化
Posted 老坛学Python
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计关系的数据可视化相关的知识,希望对你有一定的参考价值。
今日主题:seaborn库中可视化数据关系的实践操作,我们一起来耍一耍scatterplot()、lineplot()和relplot()这三个函数。
数据可视化的意义
库导入与数据准备
玩耍中使用的是iris数据集,这个数据集一共有5个变量,分别是sepal_length(花萼长度)、sepal_width(花萼宽度)、petal_length(花瓣长度)、petal_width(花瓣宽度)、species(花种类)。
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
iris = pd.read_csv('iris.csv', encoding='utf8')
scatterplot()
这个函数的初始化需要传入这些参数:
seaborn.scatterplot(x=None, y=None, hue=None, style=None, size=None,
data=None, palette=None, hue_order=None,
hue_norm=None, sizes=None, size_order=None,
size_norm=None, markers=True, style_order=None,
x_bins=None, y_bins=None, units=None, estimator=None, ci=95,
n_boot=1000, alpha='auto', x_jitter=None, y_jitter=None,
legend='brief', ax=None, **kwargs)
# 记号的大小和类型分类来自于species下的变量,
# 如果把sizes设置成10,那么标记的就喵喵大了,数字越大记号也越大
# s:表示方框,d:表示菱形,^:表示三角形
g = sns.scatterplot(x='sepal_length', y='petal_length', hue='species',
palette='Set1', data=iris, edgecolor='black',
hue_order=iris.species.value_counts().index,
size='species', sizes=[10, 50, 100],
style='species', markers=['s', 'd', '^'])
plt.show()
linesplot()
这个函数,之前的推文还没介绍过,我们来看看有啥子不一样哒。
seaborn.lineplot(x=None, y=None, hue=None, size=None, style=None,
data=None, palette=None, hue_order=None, hue_norm=None,
sizes=None, size_order=None, size_norm=None, dashes=True,
markers=None, style_order=None, units=None, estimator='mean',
ci=95, n_boot=1000, seed=None, sort=True, err_style='band',
err_kws=None, legend='brief', ax=None, **kwargs)
然后我们进行了如下的设置:
# 从效果上来看,marker只需要设置True或 False,程序会自动分配标记
# 形状只有实线和虚线两种,分类越多,点越密集,这个功能由dashes控制
# 默认请款下会对数据进行估计,并绘制数据的标准偏差带,类型有band(带状)、bars(条状)等
# sizes 参数不能设置大了,毕竟是线了,设置4都感觉有些宽了。
# sort参数需要保持默认缺省状态,如果数据集中的点不是按照由大到小或有小到大排列的话
# 把sort设置成 False,绘图的时候,就会按照数据从数据集中出现的先后顺序来绘制图形了,
# 那样的图可能就没有意义, 不是我们想要的了
g = sns.lineplot(x='sepal_length', y='petal_length', hue='species',
hue_order=['setosa', 'versicolor', 'virginica'],
data=iris, palette='Set1', size='species', sizes=[1, 2, 3],
style='species', markers=True, dashes=False,
estimator='mean', err_style='bars', sort=True)
plt.show()
relplot()
预知后事如何,见下回分解....
— E N D —
长
按
关
注
“像海绵吸水一样学习知识”
ID : 老坛学Python
记录·分享·成长
点“在看”给我一朵小黄花
以上是关于统计关系的数据可视化的主要内容,如果未能解决你的问题,请参考以下文章
数据可视化应用数据统计分析的显著性标注(附Python和R语言代码)