高斯过程预测置信区间奇数
Posted
技术标签:
【中文标题】高斯过程预测置信区间奇数【英文标题】:Gaussian-Process Prediction Confidence Interval Oddities 【发布时间】:2016-03-28 20:56:55 【问题描述】:我正在做一些粒子物理分析,希望有人能给我一些关于我试图用来推断一些数据的高斯过程拟合的见解。
我有一些不确定的数据,我将这些数据输入到 scikit-learn GaussianProcess 算法中。我通过“nugget”参数包含不确定性(我的实现匹配a standard example here,其中我的“corr”是指数平方,“nugget”值设置为(dy/y)**2)。主要问题是:我在分布边缘的绝对不确定性很低(但部分不确定性很高),这导致预测的置信区间比我在该区域的预期大得多(见下图)。
不确定性以这种方式表现的原因是我正在处理粒子物理数据,它是用不同特征 (x) 值观察到的粒子计数的直方图。这些计数遵循泊松分布,因此具有 sqrt(N) 的不确定性(标准偏差)。因此,分布的较高计数区域具有较高的绝对不确定性,但分数不确定性较低,反之亦然,对于低计数区域。
正如我所提到的,我理解,在使用平方指数内核时,此函数中的“nugget”参数的值应为(分数不确定性)**2。因此,如果预测的不确定性基于输入的分数不确定性,那么它在边缘上可能很大,这是有道理的。但我不完全理解这在数学中是如何发挥作用的,而且预测的不确定性的大小比边缘上的数据点不确定性大得多,我觉得这似乎是错误的。
任何人都可以评论这里发生的事情吗?这是否符合预期?如果是这样,为什么?任何关于该主题的进一步阅读的想法或参考将不胜感激!
我会告诉你几个重要的警告:
1) 在分布的边缘有几个计数为零的数据点。这会在“金块”的分数不确定性中产生一个扭结,因为 (sqrt(0)/0)**2 不是一个非常令人满意的值。我在这里进行了调整,仅将这些点的块金值设置为 1.0,如果这是 1 的计数,这对应于你得到的值。我相信这是一个常见的近似值,它确实会影响手头的问题,但我不'认为它不会从根本上改变问题。
2) 我正在使用的数据实际上是一个二维直方图(即,一个自变量(比如说 x)、另一个 (y) 和作为因变量 (z) 的计数)。显示的图是 2d 数据和预测的 1d 切片(即 z 与 x 在 y 的小范围内积分)。我不认为这真的会影响手头的问题,但我想我会提到它。
【问题讨论】:
【参考方案1】:从您的介绍来看,我怀疑这种行为是正确的,尽管我还没有逐步完成数学运算。我的直觉告诉我:不要做统一的直方图。当您离开配送中心时,使箱子尺寸变大。这将增加您的价值并减少您的小数误差。
【讨论】:
以上是关于高斯过程预测置信区间奇数的主要内容,如果未能解决你的问题,请参考以下文章