09Seaborn 数据可视化基础入门

Posted 2023-02-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了09Seaborn 数据可视化基础入门相关的知识，希望对你有一定的参考价值。

参考技术A

Seaborn 基于 Matplotlib 核心库进行了更高阶的 API 封装，可以让你轻松地画出更漂亮的图形。Seaborn 的漂亮主要体现在配色更加舒服、以及图形元素的样式更加细腻，下面是 Seaborn 官方给出的参考图。

Seaborn 具有如下特点：
内置数个经过优化的样式效果。
增加调色板工具，可以很方便地为数据搭配颜色。
单变量和双变量分布绘图更为简单，可用于对数据子集相互比较。
对独立变量和相关变量进行回归拟合和可视化更加便捷。
对数据矩阵进行可视化，并使用聚类算法进行分析。
基于时间序列的绘制和统计功能，更加灵活的不确定度估计。
基于网格绘制出更加复杂的图像集合。
除此之外， Seaborn 对 Matplotlib 和 Pandas 的数据结构高度兼容。

当我们使用 Matplotlib 绘图时，默认的图像样式算不上美观。此时，就可以使用 Seaborn 完成快速优化。

相比于 Matplotlib 默认的纯白色背景，Seaborn 默认的浅灰色网格背景看起来的确要细腻舒适一些。而柱状图的色调、坐标轴的字体大小也都有一些变化。
sns.set() 的默认参数为：

context=\'\' 参数控制着默认的画幅大小，分别有 paper, notebook, talk, poster 四个值。其中，poster > talk > notebook > paper。
style=\'\' 参数控制默认样式，分别有 darkgrid, whitegrid, dark, white, ticks，你可以自行更改查看它们之间的不同。
palette=\'\' 参数为预设的调色板。分别有 deep, muted, bright, pastel, dark, colorblind 等，你可以自行更改查看它们之间的不同。
剩下的 font=\'\' 用于设置字体，font_scale= 设置字体大小，color_codes= 不使用调色板而采用先前的 \'r\' 等色彩缩写。

根据图形的适应场景，Seaborn 的绘图方法大致分类 6 类，分别是：关联图、类别图、分布图、回归图、矩阵图和组合图。而这 6 大类下面又包含不同数量的绘图函数。
关联图

我们指定 x和 y的特征，默认可以绘制出散点图

加入类别特征对数据进行着色，就更好一些了

Seaborn 的函数都有大量实用的参数，例如我们指定 style 参数可以赋予不同类别的散点不同的形状。

不只是散点图，该方法还支持线形图，只需要指定 kind="line" 参数即可。线形图和散点图适用于不同类型的数据。线形态绘制时还会自动给出 95% 的置信区间。

relplot 看作是 scatterplot 和 lineplot 的结合版本。
Seaborn 中的 API 分为 Figure-level 和 Axes-level 两种。relplot 就是一个 Figure-level 接口，而 scatterplot 和 lineplot 则是 Axes-level 接口。
Figure-level 和 Axes-level API 的区别在于，Axes-level 的函数可以实现与 Matplotlib 更灵活和紧密的结合，而 Figure-level 则更像是「懒人函数」，适合于快速应用。
例如上方的图，我们也可以使用 lineplot 函数绘制

类别图
类别图的 Figure-level 接口是 catplot，其为 categorical plots 的缩写。而 catplot 实际上是如下 Axes-level 绘图 API 的集合：

分类散点图:
stripplot() ( kind="strip" )
swarmplot() ( kind="swarm" )

分类分布图:
boxplot() ( kind="box" )
violinplot() ( kind="violin" )
boxenplot() ( kind="boxen" )

分类估计图:
pointplot() ( kind="point" )
barplot() ( kind="bar" )
countplot() ( kind="count" )

catplot 绘图效果，该方法默认是绘制 kind="strip" 散点图。

kind="swarm" 可以让散点按照 beeswarm 的方式防止重叠，可以更好地观测数据分布。

hue= 参数可以给图像引入另一个维度，如果一个数据集有多个类别，hue= 参数就可以让数据点有更好的区分。
绘制箱线图：

绘制小提琴图：

绘制增强箱线图：

绘制点线图：

绘制条形图：

绘制计数条形图：

分布图
分布图主要是用于可视化变量的分布情况，一般分为单变量分布和多变量分布。当然这里的多变量多指二元变量，更多的变量无法绘制出直观的可视化图形。
Seaborn 提供的分布图绘制方法一般有这几个： jointplot ， pairplot ， distplot ， kdeplot 。
Seaborn 快速查看单变量分布的方法是 distplot。默认情况下，该方法将会绘制直方图并拟合核密度估计图。

distplot 提供了参数来调整直方图和核密度估计图，例如设置 kde=False 则可以只绘制直方图，或者 hist=False 只绘制核密度估计图。当然，kdeplot 可以专门用于绘制核密度估计图，其效果和 distplot(hist=False) 一致，但 kdeplot 拥有更多的自定义设置。

jointplot 主要是用于绘制二元变量分布图。例如，我们探寻 sepal_length 和 sepal_width 二元特征变量之间的关系。

jointplot 并不是一个 Figure-level 接口，但其支持 kind= 参数指定绘制出不同样式的分布图。例如，绘制出核密度估计对比图。

六边形计数图：

回归拟合图：

pairplot 其支持一次性将数据集中的特征变量两两对比绘图。默认情况下，对角线上是单变量分布图，而其他则是二元变量分布图。

引入第三维度 hue="species" 会更加直观。

回归图
回归图的绘制函数主要有： lmplot 和 regplot 。
regplot 绘制回归图时，只需要指定自变量和因变量即可，regplot 会自动完成线性回归拟合。

lmplot 同样是用于绘制回归图，但 lmplot 支持引入第三维度进行对比，例如我们设置 hue="species"。

矩阵图
矩阵图中最常用的就只有 2 个，分别是： heatmap 和 clustermap 。
heatmap 主要用于绘制热力图。

热力图在某些场景下非常实用，例如绘制出变量相关性系数热力图。
clustermap 支持绘制层次聚类结构图。如下所示，我们先去掉原数据集中最后一个目标列，传入特征数据即可。

以上是关于09Seaborn 数据可视化基础入门的主要内容，如果未能解决你的问题，请参考以下文章

100天精通Python（数据可视化篇）——第77天：数据可视化入门基础大全（万字总结+含常用图表动图展示）