用于估计分数的分类算法

Posted

技术标签:

【中文标题】用于估计分数的分类算法【英文标题】:Classification algorithm for estimating the score 【发布时间】:2012-12-16 21:41:09 【问题描述】:

我想检测文本文章的某种情绪取向。这个问题似乎与分类问题有关,但不是检测每个类别的概率(负、正、中性),我想知道一些总体评分,例如0.76,然后将我的文章分类到涵盖预定义范围的类别。 (例如 [0.75...1) 是正数)。

哪些机器学习算法适合此类问题?

【问题讨论】:

那么,您基本上是在寻找能够给出类正确概率的二元分类器?朴素贝叶斯和 SVM 支持 - 并且非常适合文本分类(根据我的个人经验) @amit AFAIK Naive Bayes 输出是每个类的概率列表,而不是这个我只想要一个可以代表文章评级的数字(例如 [0..1])。类似于电影评论评级的自动分类器。 你的训练集是什么?如果您的训练集也是数字,您可以尝试线性回归。 你试过 Weka 框架吗? @FGraviton Weka 包含很多不同的算法 【参考方案1】:

据我所知,您可以使用以下两种方法之一:

    使用分类算法,对于二元分类器,它为您提供 (p,1-p) - 其中p 是二元分类器赋予它“真”的“机会”。 使用线性回归(或其他数值 ML 算法),并给出 它返回给你的分数。训练算法时,您会将“pos”标记为 1,将“neg”标记为 0。

就个人而言,我会选择SVM 的第一种方法,因为我知道它可以很好地处理大型特征空间 - 并且很可能是文本问题的情况。

【讨论】:

以上是关于用于估计分数的分类算法的主要内容,如果未能解决你的问题,请参考以下文章

K近邻分类算法实现 in Python

算法链与管道(下):通用的管道接口

spark.mllib源码阅读-分类算法2-NaiveBayes

分类算法——决策树

R语言非参数方法:使用核方法和K-NN(k近邻算法)分类预测心脏病数据

AI学习---分类算法