无监督情绪分析
Posted
技术标签:
【中文标题】无监督情绪分析【英文标题】:Unsupervised Sentiment Analysis 【发布时间】:2011-04-24 15:51:19 【问题描述】:我已经阅读了很多文章,这些文章解释了在情感分析系统真正起作用之前需要一组初始文本,这些文本被归类为“正面”或“负面”。
我的问题是:有没有人尝试对“积极”形容词与“消极”形容词进行初步检查,考虑到任何简单的否定词以避免将“不快乐”归类为积极?如果是这样,是否有任何文章讨论了为什么这种策略不现实?
【问题讨论】:
【参考方案1】:A classic paper by Peter Turney (2002) 解释了一种仅使用词 excellent 和 poor 作为种子集的无监督情绪分析(正面/负面分类)的方法。 Turney 将其他词的mutual information 与这两个形容词一起使用,可以达到 74% 的准确率。
【讨论】:
链接已损坏。【参考方案2】:larsmans 提到的 Turney (2002) 的论文是一篇很好的基础论文。在一项较新的研究中,Li and He [2009] 引入了一种使用Latent Dirichlet Allocation (LDA) 的方法来训练一个模型,该模型可以以完全无监督的方式同时对文章的整体情绪和主题进行分类。他们达到的准确率是 84.6%。
【讨论】:
你真的试过了吗?我正在解决一个类似的问题,试图对安然电子邮件档案进行情绪分析。 @TrungHuynh 我在发布答案后将近 4 年才发布此内容,但该论文的链接现在已更改。您能告诉我期刊论文的名称,以便我在线搜索吗? 2018 年年中回顾这个问题,我很想建议 Li&He 模型现在是主流的 Guided LDA 模型。请参阅此处:github.com/vi3k6i5/GuidedLDA,以及相关的博文link【参考方案3】:我尝试了几种情绪分析方法,用于评论中的意见挖掘。 对我来说最有效的是刘书中描述的方法:http://www.cs.uic.edu/~liub/WebMiningBook.html在这本书中刘和其他人比较了许多策略并讨论了关于情绪分析和意见挖掘的不同论文。
虽然我的主要目标是提取意见中的特征,但我实现了一个情感分类器来检测这些特征的正面和负面分类。
我使用 NLTK 进行预处理(词标记化、POS 标记)和三元组创建。然后我还使用了这个 takeit 中的贝叶斯分类器来与 Liu 指出的其他策略进行比较。
其中一种方法依赖于将表达此信息的每个 trigrram 标记为 pos/neg,并在此数据上使用一些分类器。 我尝试过并且效果更好的其他方法(在我的数据集中大约 85% 的准确率)是计算句子中每个单词和单词 excellent/poor 的 PMI(准时互信息)分数总和作为 pos/neg 类的种子。
【讨论】:
嗨 Luchux,我正在研究类似的域,你能分享你的数据集吗,这将非常有帮助。【参考方案4】:在情感分析中没有神奇的“捷径”,就像任何其他类型的文本分析试图发现一段文本的潜在“关于”一样。尝试通过简单的“形容词”检查或类似方法来使用经过验证的捷径文本分析方法会导致模棱两可、错误分类等,最终让您对情绪的阅读准确度很差。来源(例如 Twitter)越简洁,问题就越困难。
【讨论】:
【参考方案5】:大卫,
我不确定这是否有帮助,但您可能需要查看 Jacob Perkin 的 blog post 关于使用 NLTK 进行情绪分析。
【讨论】:
他在做监督分类。【参考方案6】:我尝试使用情感词典来发现关键字,以预测句子级别的情感标签。考虑到词汇的普遍性(不依赖于领域),结果只有大约 61%。该论文可在我的主页上找到。
在稍微改进的版本中,考虑了否定副词。整个系统名为 EmoLib,可用于演示:
http://dtminredis.housing.salle.url.edu:8080/EmoLib/
问候,
【讨论】:
感谢这个 atrilla。对于我所做的测试,它运行得很好。【参考方案7】:我没有尝试过像您所描述的那样进行未经训练的情绪分析,但在我脑海中,我会说您将问题过于简单化了。仅仅分析形容词是不够的,不能很好地把握文本的情绪;例如,考虑“愚蠢”这个词。单独而言,您会将其归类为负面,但如果产品评论有“...... [x] 产品让他们的竞争对手看起来很愚蠢,因为没有首先考虑这个功能......”那么那里的情绪肯定是积极的.单词出现的更大上下文在这样的事情中肯定很重要。这就是为什么单独使用未经训练的词袋方法(更不用说更有限的形容词袋)不足以充分解决这个问题的原因。
预分类数据(“训练数据”)有助于将问题从尝试从头开始确定文本是正面情绪还是负面情绪转变为尝试确定文本是否更类似于正面文本或负面文本,并以这种方式分类。另一大点是,诸如情感分析之类的文本分析往往受到文本特征因领域而异的差异的很大影响。这就是为什么拥有一组好的数据进行训练(即,来自您工作领域内的准确数据,并且希望能够代表您将要分类的文本)与构建一个好的数据集一样重要分类系统。
不完全是一篇文章,但希望对您有所帮助。
【讨论】:
感谢您的回复华夫饼!我很感激我能在这个话题上得到的所有意见。以上是关于无监督情绪分析的主要内容,如果未能解决你的问题,请参考以下文章