使用机器学习方法从噪声输入中预测连续目标值

Posted

技术标签:

【中文标题】使用机器学习方法从噪声输入中预测连续目标值【英文标题】:predict continuous target value from noisy input using machine learning approches 【发布时间】:2016-10-19 15:35:21 【问题描述】:

我有一个数据,其中每个样本都有由 x 和大约 9000 个其他特征组成的特征向量以及对应的 y(目标值)。其中 x 和 y 都是连续值(介于 0 到 20 之间)。 x 噪声数据,但我们无法识别噪声源。目标是根据 x 和其他特征预测 y(特征没有噪声)。样本数量约为 900,000。我可以在这个问题中使用哪些机器学习方法。也是神经网络或深度学习中著名的网络。

【问题讨论】:

我有点困惑你在找什么?您是否需要有关算法、算法配置的建议? 我正在寻找可用于解决此问题的算法或常见机器学习方法。例如,这个问题可以看作是一个回归问题,但是输入数据 x 是嘈杂的,我们在回归中没有这个属性。我想知道机器学习中是否有一种通用的方法或算法来解决这类问题或靠近这个问题的问题。如果有任何我会很感激只是命名它。 在这种情况下,我想你自己回答了这个问题。我首先想到的方法是神经网络。数据集特征之间的交互将决定该网络的架构(因此我们无法对此发表评论),并且您将拥有一个处理回归的输出节点。 我读对了吗?您想仅根据 X 预测 Y,而不使用其他 9000 个特征? 看看“如何处理高维输入空间的机器学习问题?” ***.com/questions/2255833/… 【参考方案1】:

这听起来像是一个标准的回归问题,尽管你的预测相关性会很糟糕(技术术语:-))与 x 的噪声成正比。查找所有预测房价的教育示例(通常用于说明梯度下降)。你有 9000 个特征,而不是 3 或 4 个,但这只是训练时间的问题。

你也可以考虑一些“因子分析”,这样你就可以消除对y贡献不够的特征(相关系数接近0.0)。这称为“降维”;寻找 PCA(主成分分析)。

【讨论】:

请提供***算法参考技术术语suck。这将有助于我在 ML 方面取得进步。 开个玩笑;我应该这样标记它。 :-) 它大致翻译为“展示不可接受的结果和反应”。 可能是“使用 php 进行大规模机器学习”的链接

以上是关于使用机器学习方法从噪声输入中预测连续目标值的主要内容,如果未能解决你的问题,请参考以下文章

机器学习--偏差和方差

机器学习常用算法分类

我如何识别数据集上的可变目标以进行机器学习预测

R语言使用DALEX包的explain函数生成指定分类预测机器学习模型的解释器model_profile函数基于条件依赖CDP方法解释某个连续特征和目标值y的关系(Conditional DP)

人工智能基础:机器学习常见的算法介绍

机器学习实战精读--------回归