情感分析-R与spark机器学习库测试分类比较

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了情感分析-R与spark机器学习库测试分类比较相关的知识,希望对你有一定的参考价值。

1     环境

R 3.0以上版本

安装机器学习软件包:

说明:此两个包是R机器学习包。RTextTools包含文本处理,e1071包含分类器。

> install.packages("RTextTools")

> install.packages("e1071")

 

2     实验步骤

研究对象:http://www.xueqing.tv/cms/article/107#rd?sukey=3903d1d3b699c20870d8c0b36a06c8665d146b24b47f8953d7202230c1ad9c9dd368d27959ec776c4cd0e2c94248f632 

此篇博文(最上面图是word2vec的图,与本篇博文无关)使用R语言,对文本进行分类,并且使用多种分类器。

其包含两部分,都是对句子进行情感分类。一部分使用手工添加的少量数据进行。

另一部分使用80条happy数据,80条sad数据,10条happy测试数据,10条sad测试数据(代码路径:sentiment_analyse.R)。

3     试验结果

实验一:对各个分类器初步比较,作者手工添加数据,进行预测(代码文件:sentiment_compare.R):

 

预测准确率:

 

 

分类器

准确率

随机森林

60%

最大熵

60%

决策树

60%

BAGGING

60%

SVM

20%

 

实验二(代码文件sentiment_analyse.R):

数据文件:http:///sentiment/data/

采用bayes, MAXENT, SVM, SLDA, BAGGING, RF, TREE分类器,进行分类

结果如下:

 

分类器名称

准确率(R)

准确率(spark)

贝叶斯

65%

95%

随机森林

95%

90%

SVM

95%

 

SLDA

75%

 

BAGGING

95%

 

决策树

100%

85%

MAXENTROPY

95%

 

GBT

 

90%

Vord2vec

 

70%

以上是关于情感分析-R与spark机器学习库测试分类比较的主要内容,如果未能解决你的问题,请参考以下文章

机器学习实战——朴素贝叶斯中文情感分类模型

使用机器学习的情感分析分类器

Python 基于机器学习的微博情感分析与研究

阿旭机器学习实战33中文文本分类之情感分析--朴素贝叶斯KNN逻辑回归

基于机器学习和TFIDF的情感分类算法,详解自然语言处理

情感分析-机器学习