如何计算相关值的平均值?

Posted

技术标签:

【中文标题】如何计算相关值的平均值?【英文标题】:How to compute the average of correlated values? 【发布时间】:2015-02-19 05:19:53 【问题描述】:

让我们假设以下向量:

x = c( 0.5, 0.4, 0.8 )

其中 x[1] 和 x[2] 值是相关的,具有相关矩阵:

     x[1]  x[2]  x[3]
x[1]  1    0.8    0
x[2]  0.8  1      0
x[3]  0    0      1

我想计算 x 的平均值,但要考虑相关性。

我尝试使用 lm() 进行广义最小二乘,但这意味着要使用水平函数,而 lm() 不喜欢使用 poly(x,0)。我寻找使用用户定义的函数,但它应该返回要拟合的参数......

作为一个具体的例子,让我们从进化树中取出三个物种:

library(ape)
## The evolution tree
t=rtree(3)
## Plot it, you notice that two are closer to each other than the 3rd one
plot(t)
## Correlation matrix
vcv.phylo(t,corr=T)
      t1        t3 t2
t1 1.0000000 0.4019544  0
t3 0.4019544 1.0000000  0
t2 0.0000000 0.0000000  1

欢迎任何提示!

【问题讨论】:

我有点困惑;您是否建议向量x 的各个元素是相关的,即。 x[1] = 0.5 & x[2] = 0.4 是相关的)- 似乎不正确(相关性不会被定义) 是的,例如,假设我想平均街道上人们的体型。我该如何对待兄弟?由于它们的共同父母,它们的大小高度相关。 您的问题根本不清楚:您似乎不知道自己要计算哪个数量。您通过“我想计算 x 的平均值,但考虑到相关性”来准确定义什么?加权平均? 是的,加权平均值。所以在没有相关性的情况下(0.5+0.4+0.8)/3。但是考虑到第 1 次和第 2 次测量值之间的相关性,它们的权重不应为 1。所以类似于 (0.5*0.5 + 0.4*0.5 + 0.8*1)/2 您所描述的现象正确地称为自相关。在 stats.stackexchange.com 上搜索类似问题可能会更好。问题可能不在于计算平均值,而在于从可疑自相关的变量中抽样。 【参考方案1】:

答案可以在 CERN 论文中找到:

ftp://ftp.desy.de/pub/preprints/cern/ppe/ppe94-185.ps.gz

该过程是广义最小二乘回归。

结果见公式 (2) 第 (1) 页。

【讨论】:

以上是关于如何计算相关值的平均值?的主要内容,如果未能解决你的问题,请参考以下文章

如何计算另一列中特定值的列的平均值?

如何在不包括最后一个值(sql)的情况下计算值的平均值?

查询计算包括NULL的值的平均值

计算第一个数字相似的所有元组值的平均值

如何在 Python 中使用带有“None”值的 numpy?

计算向量中每 n 个值的平均值