能够切换数据集的随机森林算法

Posted

技术标签:

【中文标题】能够切换数据集的随机森林算法【英文标题】:Random forest algorithms able to switch data sets 【发布时间】:2016-04-04 21:51:08 【问题描述】:

我很好奇是否已经对随机森林进行了研究,该研究将无监督学习与监督学习相结合,以一种允许单一算法在多个不同数据集中找到模式并与之一起工作的方式。我已经用谷歌搜索了所有可能的方法来找到这方面的研究,但结果都是空的。谁能指出我正确的方向?

注意:我已经在数据科学论坛上问过这个问题,但它基本上是一个死论坛,所以我来到了这里。

【问题讨论】:

您必须更具体。您究竟想如何结合无监督和监督方法? 我想知道是否有人尝试过将两者结合的任何方法,表达的目的是创建一个可以处理多个数据集的算法,而无需“灌水” ” 每一台机器。通常使用 ML,(据我了解)数据科学家必须在数据集中描绘每个单独的变量,以便算法可以使用这些属性/变量对数据进行分类以供将来使用。 原则上,随机森林可以处理任意数量的不同数据集。你只需要特征和标签来预测。对于无监督方法,您仍然需要这些功能。我不知道你的问题是什么意思。 同样,只要定义了特征和标签,任何分类算法都是如此。如果您想要更明确的答案,则需要定义“处理”和“人工干预”。 你描述的叫无监督学习,具体听上去像模式挖掘。 【参考方案1】:

(也阅读 cmets 并将内容合并到我的答案中)

我从字里行间读到的是,您希望在迁移学习设置中使用深度网络。但是,这不会基于决策树。 http://jmlr.csail.mit.edu/proceedings/papers/v27/mesnil12a/mesnil12a.pdf

你的问题有很多元素:

1.) 机器学习算法通常不关心数据集的来源。所以基本上你可以为学习算法提供 20 个不同的数据集,它会使用所有这些数据集。但是,数据应该具有相同的基本概念(迁移学习案例除外,见下文)。这意味着:如果您将猫/狗数据与账单数据结合起来,这将不起作用或使算法变得更加困难。至少所有输入特征都需要相同(存在例外),例如,很难将图像与文本结合起来。

2.) 有标签/无标签:两个重要术语:数据集是一组具有固定维数的数据点。数据点 i 可能被描述为 Xi1,....Xin 其中每个 Xi 可能例如是一个像素。标签 Yi 来自另一个域,例如猫和狗

3.) 无监督学习没有任何标签的数据。 (我直觉这不是你想要的。

4.) 半监督学习:这个想法基本上是将有标签的数据与没有标签的数据结合起来。基本上,您有一组标记为猫和狗 Xi1,..,Xin,Yi 的图像和第二组包含带有猫/狗但没有标签 Xj1,..,Xjn 的图像。该算法可以使用这些信息来构建更好的分类器,因为未标记的数据提供了有关图像总体外观的信息。

3.) 迁移学习(我认为这最接近你想要的)。想法是您提供猫和狗的数据集并学习分类器。之后你想用猫/狗/仓鼠的图像训练分类器。训练不需要从头开始,但可以使用猫/狗分类器更快地收敛

4.) 特征生成 / 特征构建 这个想法是算法学习像“眼睛”这样的特征。下一步将使用此功能来学习分类器。我主要在 深度学习 的背景下意识到这一点。算法在第一步中学习诸如边缘之类的概念并构建越来越复杂的特征,例如猫不容忍的面孔,它可以描述诸如“大象上的人”之类的东西。这与转移学习相结合可能是您想要的。但是深度学习是除了少数例外,基于神经网络。

5.) 异常值检测您提供一组猫/狗作为已知图像的数据集。当您提供猫/狗/仓鼠分类器时。分类器告诉你它以前从未见过像仓鼠这样的东西。

6.) 主动学习这个想法是您不会事先为所有示例(数据点)提供标签,而是算法要求您标记某些数据点。这样,您需要标记的数据要少得多。

【讨论】:

以上是关于能够切换数据集的随机森林算法的主要内容,如果未能解决你的问题,请参考以下文章

随机森林

RandomForest随机森林算法

数据结构-集成算法-随机森林

数据结构-集成算法-随机森林

分类算法 - 随机森林

随机森林(RF)的原理