如何对python中未标记的数据进行多类分类?

Posted

技术标签:

【中文标题】如何对python中未标记的数据进行多类分类?【英文标题】:How to do multiclass classification for unlabeled data in python? 【发布时间】:2019-06-01 03:42:14 【问题描述】:

我有一个包含 20 种不同类型的数据(作为一列),20 种中有 10 种是有用的信息,我想使用逻辑回归将它们分为 10 个不同的类别,因此我想显示记录的数量每个班级。数据未标记。

183820,9.17101300730551E+018,9,7,79,169,2017,10,17,6,3,0,1,1,0,0,0,0,0,0,637126.9861,5399201
183821,9.17101300712351E+018,9,7,72,147,2017,10,8,6,3,6,2,0,1,1,0,0,0,0,639046.3051,5363761.

【问题讨论】:

【参考方案1】:

将每一行拆分成这样的表格

table = []
with open('your.csv') as f:
    for l in line:
        table.append(l.split(','))

然后使用您喜欢的任何逻辑回归函数并获得结果。

【讨论】:

我对逻辑回归算法感到困惑,你能分享一些链接吗?【参考方案2】:

您可以从 CSV 文件中读取数据,然后尝试聚类方法进行分类。

【讨论】:

【参考方案3】:

试试下面的参考:

1) 一种使用 SVM 基础模型从正数据和未标记数据中学习的稳健集成方法 http://arxiv.org/abs/1402.3144(发表于 Neurocomputing)

2) 仅使用正数和未标记数据评估二元分类器:http://arxiv.org/abs/1504.06837

【讨论】:

以上是关于如何对python中未标记的数据进行多类分类?的主要内容,如果未能解决你的问题,请参考以下文章

使用 python 和 nltk 进行多类文本分类

单标签多类分类随机森林python

如何获得多类分类问题中每个类的精度分数?

在sklearn python中处理逻辑回归分类器中的极端不平衡多类

SVM 多类文本分类

使用高斯朴素贝叶斯的多类分类