如何根据监督场景的多个特征的相关性进行分类

Posted

技术标签:

【中文标题】如何根据监督场景的多个特征的相关性进行分类【英文标题】:how to do Classification based on the correlation of multiple features for a Supervised scenario 【发布时间】:2018-01-04 01:47:57 【问题描述】:

我有 2 个特征:“Contact_Last_Name”和“Account_Last_Name”,我想根据这些特征对我的数据进行分类: 逻辑是,如果 2 个功能相同,即 Contact_Last_Name 与 Account_Last_Name 相同,则结果为“成功”,否则为“拒绝”。 所以。例如:如果 Contact_Last_Name 是 'Johnson' 而 Account_Last_Name 是 'Eigen' - 结果被归类为 'Denied'。如果两者相等,比如说“爱迪生”,那么结果就是“成功”。 如何,我可以为这组数据提供分类算法? [请注意,通常我们会丢弃高相关性列,但在这里,列之间的相关性似乎具有分类的逻辑]

我曾尝试在 R 中使用决策树(C5.0)和朴素贝叶斯(naiveBayes),但两者都无法正确分类数据集。

【问题讨论】:

【参考方案1】:

首先,它不是机器学习的好用例,因为这可以通过字符串匹配来完成,但如果你想给一个分类算法,然后创建一个表,其值为'Contact_Last_Name'和' Account_Last_Name' 和 'Result' 并将其用于决策树并预测第三列。

请注意,您为训练和测试划分数据。

【讨论】:

我已经有一个表并将其提供给决策树。 C5.0 无法对数据进行分类。 你能分享一下格式吗?我们怎么知道你的表格和内容是什么

以上是关于如何根据监督场景的多个特征的相关性进行分类的主要内容,如果未能解决你的问题,请参考以下文章

PIE-Basic 非监督分类

分类与监督

分类与监督学习,朴素贝叶斯分类算法

分类与监督学习,朴素贝叶斯分类算法

分类与监督学习,朴素贝叶斯分类算法

决策树算法常见问题(面试相关)