设计天气数据的分类问题
Posted
技术标签:
【中文标题】设计天气数据的分类问题【英文标题】:designing classification problem of weather data 【发布时间】:2011-06-30 14:51:19 【问题描述】:在正常的 2 类或多类分类问题中,我们可以使用任何著名的机器学习算法,如 Naive Bayes 或 SVM 来训练和测试模型。 我的问题是我得到了天气数据,其中标签变量的格式为“20% 雨,80% 干燥”或“30% 多云,70% 雨”等。 我应该如何解决这个问题?我需要以某种方式将问题转化为回归吗?在这种情况下,如果数据中有三个标签(雨、干、多云),将百分比信息转换为连续值的正确方法是什么? 感谢您的宝贵时间
【问题讨论】:
【参考方案1】:假设“20% 下雨,80% 干燥”和“30% 多云,70% 下雨”表示概率,则这些类是互斥的,我们可以忽略可能的序数关系(例如“干燥 > cloudy > rain") 其中,多分类逻辑回归等模型可能适合这些值,就好像它们被分组或复制一样。
我想也可以使用其他的 ad hoc 程序,例如,这将最大限度地减少 Kullback-Leibler 散度。
【讨论】:
【参考方案2】:我会推荐一个具有三个输出标签 Rain、Dry、Cloud 的神经网络。
如果您有标签为“20 % rain”的数据,那么实例的权重将为 0.2。如果没有“rain”标签应该包含“false”。其他方法是使用相同转换约定的 3 个不同的回归分类器。我认为回归会更好。
神经网络将是不错的选择,因为它可以同时进行所有三个回归/分类,并且它们可以相互影响。此外,训练算法很简单。
【讨论】:
以上是关于设计天气数据的分类问题的主要内容,如果未能解决你的问题,请参考以下文章