用于估计分数的分类算法
Posted
技术标签:
【中文标题】用于估计分数的分类算法【英文标题】:Classification algorithm for estimating the score 【发布时间】:2012-12-16 21:41:09 【问题描述】:我想检测文本文章的某种情绪取向。这个问题似乎与分类问题有关,但不是检测每个类别的概率(负、正、中性),我想知道一些总体评分,例如0.76
,然后将我的文章分类到涵盖预定义范围的类别。 (例如 [0.75...1) 是正数)。
哪些机器学习算法适合此类问题?
【问题讨论】:
那么,您基本上是在寻找能够给出类正确概率的二元分类器?朴素贝叶斯和 SVM 支持 - 并且非常适合文本分类(根据我的个人经验) @amit AFAIK Naive Bayes 输出是每个类的概率列表,而不是这个我只想要一个可以代表文章评级的数字(例如 [0..1])。类似于电影评论评级的自动分类器。 你的训练集是什么?如果您的训练集也是数字,您可以尝试线性回归。 你试过 Weka 框架吗? @FGraviton Weka 包含很多不同的算法 【参考方案1】:据我所知,您可以使用以下两种方法之一:
-
使用分类算法,对于二元分类器,它为您提供
(p,1-p)
- 其中p
是二元分类器赋予它“真”的“机会”。
使用线性回归(或其他数值 ML 算法),并给出
它返回给你的分数。训练算法时,您会将“pos”标记为 1,将“neg”标记为 0。
就个人而言,我会选择SVM 的第一种方法,因为我知道它可以很好地处理大型特征空间 - 并且很可能是文本问题的情况。
【讨论】:
以上是关于用于估计分数的分类算法的主要内容,如果未能解决你的问题,请参考以下文章
spark.mllib源码阅读-分类算法2-NaiveBayes