机器学习和实际预测 [关闭]
Posted
技术标签:
【中文标题】机器学习和实际预测 [关闭]【英文标题】:Machine learning and actual predictions [closed] 【发布时间】:2019-06-13 00:36:45 【问题描述】:我有一个关于机器学习预测的问题。
所以通常我会有一个包含 x 和 y 的数据集,我会在上面训练我的算法。但是,如果我只有一个只有输入变量(x's)而没有实际预测(y's)的数据集呢?
例如,我正在寻找欺诈性交易。
在数据集 A 中,我有一堆输入变量,如金额、邮政编码、商家等,我有一个欺诈状态变量,其中 1 表示可能存在欺诈,0 表示安全交易。在这里,我知道可以训练我的模型的欺诈/已知非欺诈。
但是,如果我有一个没有欺诈变量的数据集怎么办。我所拥有的只是我的输入变量,没有表明它是否是欺诈的变量。 ML 算法如何预测它是针对特定数据集的欺诈交易的概率?
【问题讨论】:
您问的是无监督学习,这是一个非常广泛的话题,而且无论如何都不是 *** 的主题。有更适合数据科学/机器学习的特定堆栈交换站点。 我投票结束这个问题,因为它与编程无关 【参考方案1】:我认为您正在寻找的是异常检测。在异常检测中,您将尝试找到与其余数据点不同的数据点,在您的情况下是欺诈交易。
sklearn 中有不少可用的算法,请看here。我建议从 IsolationForest 模型开始解决您的问题。
来自文档。
【讨论】:
以上是关于机器学习和实际预测 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章
机器学习100天(二十一):021 分类模型评价指标-ROC曲线和AUC