笔记 基于 Word2Vec 和 SVM 的微博舆情情感演化分析
Posted 猛男Banana君
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了笔记 基于 Word2Vec 和 SVM 的微博舆情情感演化分析相关的知识,希望对你有一定的参考价值。
目录
论文标题
《基于 Word2Vec 和 SVM 的微博舆情情感演化分析》
引言
这篇论文选取了2018年微博 “滴滴温州女孩遇害”事件作为主体,收集相关评论内容作为数据源,计算评论内容的情感值,标注情感正负性,通过 Word2Vec 和 SVM 方法构建情感分类模型。并且作者通过分析出现频率较高的词语,从情感时序分析和舆情主体对象情感演化分析两个方面探讨微博舆情的情感走势。研究发现,情感分类模型可以有效预测网民的情感走势,网民的情感演化历程与计算结果相吻合。
标题论文学术结构
1、相关研究综述(先前学者的研究)
1)(微博)情感分析
a.原文:情感分析是对主题观点、情感和态度进行提取、检测和分类(的过程)。
b.情感分析包括:主客观分析 、情感倾向性分析 (情感分类)、观点信息抽取、评论挖掘,其中情感分类应用最为普遍(按机器学习算法可分为有监督学习和无监督学习)
c.微博情感分析:主要通过爬取微博评论数据,挖掘公众情感演变特征,进而预测各主题领域行为变化趋势。在国外,多数学者通过爬取Twitter上的评论数据,从而预测各种社会行情和趋势;然而在中国,由于中文局势复杂,评论含有大量表情符号,国内学者对微博相关话题情感变化趋势的研究较缺乏,实际应用不足。
2)微博舆情分析
微博舆情分析涉及面较广,国内外众多学者都对该领域作过大量研究,提出许多模型、方法,美中不足的是,目前的研究大多关注的是舆情内在演化过程和机理,鲜有将微博情感分析与实际案例相结合的,这便是本文的初衷——为网络舆情治理提供指导。
2、研究方法
1)SVM
该方法采用监督学习方式对二分类问题进行建模。通常分为两类问题: 一类是线性可分,通过超平面把样本分开,寻找一个最优超平面并对其分类; 另一类是线性不可分,将样本映射到高维特征空间,使用核函数将其转化为线性可分。
SVM在情感分类上适应性好,准确性高,很适合情感分析。
2)Word2Vec
a.这是Google开发的一个工具,实质上是一个两层网络,将词转化为向量表示,映射到高维向量空间中,从而寻求词更深层次的特征,预测词与词之间的相似性,进而做聚类分析和词性分析等。
b.Word2Vec包括CBOW 模型和 skip-gram 模型
模型图解(存着,万一以后看懂了呢……)
c.文中提到,将 Word2Vec 和 SVM 结合使用的实验效果精度较高,且用在情感分类恰到好处。因此将网络舆情与情感演化融合,试图构建网络舆情情感分类模型,探索舆情情感演化特征和规律。
3、基于 Word2Vec 和 SVM 的微博情感演化分析
1)数据采集及情感词典构建
a.数据采集。本文采集了2018年“滴滴温州女孩遇害”事件评论数据(不同时间下官方微博下方的评论数据),共有161945条之多。(好多啊……)
b.情感词典构建。BosonNLP 情感词典来源于微博、论坛、新闻等社交媒体文本,且收录大量网络常用语,赋予情感正负值,因此适用于社交媒体情感分析。本文以
BosonNLP 词典为核心,结合 HowNet 中 219 个程度词 、44 个常用的否定词 (取反)、哈工大停用词表 (767 个停用词),构建了一个全面的情感词典。
2)基于 Word2Vec 和 SVM 的情感分类模型构建
a.数据来源及预处理。选取正负极性较高的句子作为语料,按序排列情感值,筛选出小于 -7 值的所有语句和大于 5 值的所有语句,作为模型训练的数据集。
b.训练词向量。本文选取 Word2Vec 词向量模型将文本语料转换为词向量,同时训练Word2Vec 词向量模型,利用新的模型生成词向量矩阵。
c.PCA降维(主成分分析)。多维特征易导致训练时间过长,问题复杂化,对高维数据降维可以增加数据可视化效果,提升数据处理速度,节省成本。
d. SVM 训练模型。emmm…
e.模型验证。训练后模型准确率高,文中还给出一个判断基准AUC=0.97,进一步说明此模型适合于判断情感的正负倾向。
3)情感时序分析
a.通过情感值计算,得到不同时间段评论语句的情感值得分,由此绘制PCA曲线和ROC曲线,并将舆情分为四个阶段:起始期、爆发期、衰退期、消亡期 。
b.结合图像和数据分析总结,网民的情感变化与舆情演变规律相吻合,证明了基于 Word2Vec 和 SVM 的情感分类模型的有效性以及其良好的前景。
4)词云图
a.词云图就是通过形成“关键词云层”或“关键词渲染”,对网络文本中出现频率较高的“关键词”的视觉上的突出。
b.文中通过绘制两个时间段的词云图,分析高频词汇可知网民的情感变化以及舆情演变过程。
4、基于 Word2Vec 词相似度的舆情主体对象情感演化分析
这一部分内容主要是运用 Word2Vec 方法,训练新的模型,计算与滴滴公司、司机、客服、女孩和警察最相似的词,降序排列,获得前 100 个相似词、舆情对象总体情感极性条形图和情感极性占比图,采用 Excel 筛选功能提取各个舆情对象的评论内容,计算情感值和正负向情感比例图,归纳公众对 5 类舆情主题对象的情感态度。
5、结论与展望(摘自原文,原文讲得很好)
a.大数据环境下情感分析是现阶段各领域的研究热点之一。本文以 “滴滴温州女孩遇害”话题为例,采集评论内容作为数据源,基于 Word2Vec 和 SVM 构建了微博舆情情感分类模型,并分析了微博舆情的情感时序演化情况。
b.利用 Word2Vec 计算与5 类舆情主体对象的高相似度词语,从而分析网民对舆情主体对象的情感走势和主题特征,探讨了此事件的四阶段舆情演变特征,并对此提出一些舆情监控建议,有利于政府相关应急管理部门了解网民的情感态度变化,实现精准预测监控微博舆情的目标。
c.本文也存在不足之处: 该事件评论内容庞大,本文只爬取了部分数据,分析结果仅反映此周期内事件的发展变化。另外情感值计算过程中并未考虑到表情符号的作用,未来会进一步增大数据量,从更加细粒度的方向探讨相关问题,并增加句式和语法结构分析,提高准确率。
补充拓展知识:细粒度
①细粒度模型,通俗的讲就是将业务模型中的对象加以细分,从而得到更科学合理的对象模型,直观的说就是划分出很多对象。
②粒度是数据库名词,计算机领域中粒度指系统内存扩展增量的最小值。粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。
读后感
1、寒假看的第三篇也是最后一篇论文了,这是篇中文版的论文,因此很容易看,内容也相对简单,主要介绍了基于Word2Vec 和 SVM 方法构建情感分类模型,并用该模型计算并分析社会事件中网民的情感变化以及舆情情感演变趋势。
2、跟时事热点有关的文本我都挺喜欢的,这篇论文使用的主体也是当年引发网络风波的“滴滴司机”事件,当时我的情绪也是随着案件的变化而变化,对司机的慨愤、对花季少女的怜悯和惋惜,这些情感我都曾有过,没想到现在我是在计算机领域以情感分析的视角宏观地看待这件事,文中提到的微博情感分析实为预测舆情演变的利器,其计算的准确率之高让我眼前一亮,计算机的力量是最顶的!
思维导图
以上是关于笔记 基于 Word2Vec 和 SVM 的微博舆情情感演化分析的主要内容,如果未能解决你的问题,请参考以下文章