不同的分位数:箱线图与小提琴图
Posted
技术标签:
【中文标题】不同的分位数:箱线图与小提琴图【英文标题】:Differing quantiles: Boxplot vs. Violinplot 【发布时间】:2016-07-02 04:40:47 【问题描述】:require(ggplot2)
require(cowplot)
d = iris
ggplot2::ggplot(d, aes(factor(0), Sepal.Length)) +
geom_violin(fill="black", alpha=0.2, draw_quantiles = c(0.25, 0.5, 0.75)
, colour = "red", size = 1.5) +
stat_boxplot(geom ='errorbar', width = 0.1)+
geom_boxplot(width = 0.2)+
facet_grid(. ~ Species, scales = "free_x") +
xlab("") +
ylab (expression(paste("Value"))) +
coord_cartesian(ylim = c(3.5,9.5)) +
scale_y_continuous(breaks = seq(4, 9, 1)) +
theme(axis.text.x=element_blank(),
axis.text.y = element_text(size = rel(1.5)),
axis.ticks.x = element_blank(),
strip.background=element_rect(fill="black"),
strip.text=element_text(color="white", face="bold"),
legend.position = "none") +
background_grid(major = "xy", minor = "none")
据我所知,以箱线图结尾的方框分别代表 25% 和 75% 的分位数,中位数 = 50%。所以它们应该等于geom_violin
在draw_quantiles = c(0.25, 0.5, 0.75)
参数中绘制的0.25/0.5/0.75 分位数。
中位数和 50% 分位数拟合。但是,0.25 和 0.75 分位数都不适合箱线图的箱端(见图,尤其是 'virginica' 刻面)。
参考文献:
http://docs.ggplot2.org/current/geom_violin.html
http://docs.ggplot2.org/current/geom_boxplot.html
【问题讨论】:
【参考方案1】:评论太长了,所以我将其发布为答案。我看到了分歧的两个潜在来源。首先,我的理解是boxplot
指的是boxplot.stats
,它使用的hinges
非常相似,但不一定与分位数相同。 ?boxplot.stats
说:
这两个“铰链”是第一和第三四分位数的版本,即, 接近分位数(x, c(1,3)/4)。铰链等于奇数的四分位数 n (其中 n
hinge vs quantile
的区别因此可能是差异的来源之一。
其次,geom_violin
指的是密度估计。源代码here 指向一个函数StatYdensity
,这将我引向here。我找不到函数compute_density
,但我认为(也由于帮助文件中的一些指针)它本质上是density
,默认情况下使用高斯核估计来估计密度。这可能(或可能不会)解释这些差异,但是
by(d$Sepal.Length, d$Species, function(x) boxplot.stats(x, coef=5)$stats )
by(d$Sepal.Length, d$Species, function(v) quantile(density(v)$x))
确实显示出不同的值。因此,我猜测差异是由于我们是基于观察的经验分布函数还是基于核密度估计来查看分位数,尽管我承认我还没有最终证明这一点。
【讨论】:
您的回答很有道理,谢谢!我在所有这些分位数值的修改(“铰链”或密度估计)中看到的问题是,它们最后都指的是“分位数”。geom_boxplot
doc 指的是“上铰链,75% 分位数”,而geom_violin
doc 直接将其称为“draw_quantiles”。这让用户假设处理相同的统计数据,而两者实际上不同。【参考方案2】:
第二个因素that @coffeinjunky raised 似乎是主要原因。这里有更多的证据来支持这一点。
通过切换到geom_ydensity
,可以凭经验确认差异是由于geom_violin
使用核密度估计来计算分位数,而不是实际观察结果。例如,如果我们强制使用较宽的带宽 (bw=1
),那么估计的密度将被过度平滑,并进一步偏离箱线图中使用的基于观察的分位数:
require(ggplot2)
require(cowplot)
theme_set(cowplot::theme_cowplot())
d = iris
ggplot2::ggplot(d, aes(factor(0), Sepal.Length)) +
stat_ydensity(bw=1, fill="black", alpha=0.2, draw_quantiles = c(0.25, 0.5, 0.75)
, colour = "red", size = 1.5) +
stat_boxplot(geom ='errorbar', width = 0.1)+
geom_boxplot(width = 0.2)+
facet_grid(. ~ Species, scales = "free_x") +
xlab("") +
ylab (expression(paste("Value"))) +
coord_cartesian(ylim = c(3.5,9.5)) +
scale_y_continuous(breaks = seq(4, 9, 1)) +
theme(axis.text.x=element_blank(),
axis.text.y = element_text(size = rel(1.5)),
axis.ticks.x = element_blank(),
strip.background=element_rect(fill="black"),
strip.text=element_text(color="white", face="bold"),
legend.position = "none") +
background_grid(major = "xy", minor = "none")
所以,是的,小心这一点 - 密度估计的参数会影响结果!
【讨论】:
以上是关于不同的分位数:箱线图与小提琴图的主要内容,如果未能解决你的问题,请参考以下文章
MATLAB | 全网最全边际图绘制模板(直方图小提琴图箱线图雨云图散点图... ...)