简单的机器学习问题(SVM,随机森林

Posted

技术标签:

【中文标题】简单的机器学习问题(SVM,随机森林【英文标题】:Simple machine learning problem (SVM, random forest 【发布时间】:2019-10-05 12:42:18 【问题描述】:

我正在尝试解决机器学习任务,但遇到了一些问题。任何提示将非常感谢。我的一个问题是,如何为 2 个不同大小的数据帧(2 个标签的数据)创建相关矩阵,看看是否可以将它们合并为一个。

这是任务的全文

此数据集由 1100 个样本组成,每个样本包含 30 个特征。第一列是样本 ID。数据集中的第二列代表标签。标签有 4 个可能的值。其余列是数字特征。

请注意,类是不平衡的:一些标签比其他标签更频繁。您需要决定是否考虑这一点,如果是,如何考虑。

比较支持向量机(由 sklearn.svm.LinearSVC 实现)与 RandomForest(由 sklearn.ensemble.ExtraTreesClassifier 实现)的性能。尝试优化这两种算法的参数并确定哪个最适合该数据集。在分析结束时,您应该已经选择了一种算法及其最佳参数集。

我尝试为具有较低基数的标签的行创建一个相关矩阵,但我不相信它是可靠的

我尝试从具有标签 1 和 2 的行中创建两个新的数据框。这两个标签中的每一个都有 100-150 个条目,而标签 0 和 3 则有 400 个条目。我想检查是否存在高标记为 1 和 2 的数据之间的相关性,看看我是否可以将它们结合起来,但不知道这是否是正确的方法。我试图通过将零附加到较小的数据帧来使数据帧的大小相同,然后为两个数据集一起做一个相关矩阵.这是正确的做法吗

【问题讨论】:

如果有人知道如何有效地解决任务,请给我留言。 请分享你的方法,你卡在哪里。 请不要不要将 cmets 空间用于此类附加信息 - 编辑和更新您的帖子,而不是将其包含在其中。 【参考方案1】:

您的问题和方法不清楚。你能用问题陈述和给你的少量数据集来修改问题吗?

如果您想可视化您的数据集,请将它们绘制成 2,3 或 4 维。 这里有许多绘图工具,例如 3D 散点图、配对图、直方图等等。使用它们来更好地理解您的数据集。

【讨论】:

以上是关于简单的机器学习问题(SVM,随机森林的主要内容,如果未能解决你的问题,请参考以下文章

浅谈对机器学习算法的一些认识(决策树,SVM,knn最近邻,随机森林,朴素贝叶斯逻辑回归)

机器学习:通俗易懂决策树与随机森林及代码实践

OpenCV3 SVM ANN Adaboost KNN 随机森林等机器学习方法对OCR分类

机器学习算法汇总大梳理

Python机器学习及实践 课后小题

百度面试——机器学习