使用置信区域的最近邻区

Posted

技术标签:

【中文标题】使用置信区域的最近邻区【英文标题】:Nearest Neigborood using a confidence region 【发布时间】:2022-01-10 15:03:39 【问题描述】:

我有超过 100 万个数据点,其中 32 个(图片中的橙色)是我真正的班级。 我想找到与橙色相似的蓝点。 特征向量只是嵌入。 我采用的方法是建立一个伪 95 置信区域,然后将该区域内的点标记为我的真实标签。 我认为我不能使用 KNN 算法,原因如下:

我只事先知道哪些点属于正类。 KNN 会高度过度拟合,因为我在超过 100 万个数据点上只有 32 个正数据点。 有没有其他算法或方法更适合这个问题?

【问题讨论】:

【参考方案1】:

集群非常大的数据集往往会停止。这是一个疯狂的想法。您可以随机抽取数据集样本并使用它吗?如果选择过程是完全随机的,那么它只是整个数据集的一个子集,而较小的部分应该非常能代表整个数据集。应该就这么简单。

subset = df.sample(frac=0.5)

查看此链接了解更多信息。

https://towardsdatascience.com/how-to-sample-a-dataframe-in-python-pandas-d18a3187139b

【讨论】:

感谢您的回答,但我不确定我是否理解得很好。我已经从 50M 点数据集中采样了数据集。关于该方法的任何建议?不确定它是否确实是一个真正的聚类,因为我事先已经知道我有 32 个标记点。 这听起来不像是集群实验。聚类是无监督的,因为您不知道结果会是什么。

以上是关于使用置信区域的最近邻区的主要内容,如果未能解决你的问题,请参考以下文章

高效的最近邻搜索特定任务?

为集合 A 中的所有点查找集合 B 中的最近邻的算法

k-d树的最近邻搜索算法

使用 R 中的最近邻分类器分配类标签

JavaScript 的最近邻库

在 R 中使用 k-NN(类包)的最近邻索引