情绪分析词典

Posted

技术标签:

【中文标题】情绪分析词典【英文标题】:Sentiment Analysis Dictionaries 【发布时间】:2011-05-10 11:26:48 【问题描述】:

我想知道是否有人知道我可以从哪里获得积极和消极词汇的词典。我正在研究情绪分析,这是其中的关键部分。

【问题讨论】:

【参考方案1】:

Sentiwords 给出了 155,000 个单词(以及它们的极性,即从非常负面到非常正面的分数介于 -1 和 1 之间)。词典讨论here

【讨论】:

【参考方案2】:

你可以使用维德情感词典

from nltk.sentiment.vader import SentimentIntensityAnalyzer

sentence='APPle is good for health'
sid = SentimentIntensityAnalyzer()
ss = sid.polarity_scores(sentence)  
print(ss)

它会给你句子的极性。

输出:

 'compound': 0.4404, 'neu': 0.58, 'pos': 0.42, 'neg': 0.0

【讨论】:

【参考方案3】:

匹兹堡大学的Sentiment Lexicon 可能就是您所追求的。这是一个大约 8,000 个单词的词典,带有正面/中性/负面情绪。它在this paper 中有更详细的描述,并在 GPL 下发布。

【讨论】:

【参考方案4】:

Harvard-IV 字典目录http://www.wjh.harvard.edu/~inquirer/homecat.htm 至少有两组即用型字典,用于正向/负向定位。

【讨论】:

【参考方案5】:

情绪分析(意见挖掘)词典

MPQA Subjectivity Lexicon Bing Liu and Minqing Hu Sentiment Lexicon SentiWordNet(包含在NLTK中) VADER Sentiment Lexicon SenticNet LIWC (not free) Harvard Inquirer ANEW

来源:

Keenformatics - Sentiment Analysis lexicons and datasets(我的博客) Hutto, C. J., and Eric Gilbert. "Vader: A parsimonious rule-based model for sentiment analysis of social media text." Eighth International AAAI Conference on Weblogs and Social Media. 2014. Sentiment Symposium Tutorial by Christopher Potts 个人经历

【讨论】:

【参考方案6】:

AFINN 你可以在这里找到并动态创建它。就像每当出现未知的 +ve 词时,将其添加 +1。就像banana是新的+ve词,出现两次就会变成+2。

您在字典中抓取的文章和数据越多,您的字典就越强大!

【讨论】:

该文件实际上是一个玩具文件,是为课堂作业创建的。在我看来,将它用于实际工作是错误的。 @mcduffee 详细说明? @jbird 我不确定我可以添加什么。该文件是为课堂作业创建的,其中要评估的文本是根据列表中的单词定制的。它缺少很多很多单词(整个列表不到 2500 个单词)。我担心,尝试将它与未针对列表中的单词定制的文本一起使用会导致对情绪的评估不如更完整的列表所提供的准确。【参考方案7】:

刘冰教授提供了一本约6800字的英文词典,您可以从这个链接下载: Opinion Mining, Sentiment Analysis, and Opinion Spam Detection

【讨论】:

【参考方案8】:

我来晚了一点,我只是注意到字典对情绪分析的贡献有限。 一些带有情感的句子不包含任何“情感”词 - 例如。 “读这本书”在书评中可能是积极的,而在电影评论中可能是消极的。 同样,情感词“不可预测”在惊悚片中可能是正面的,但在描述丰田的休息系统时可能是负面的。

还有更多...

【讨论】:

真的很不错。对我来说幸运的是,我只与某些新闻来源打交道,他们会避免使用俚语,通常只是陈述事实。不过,还是要担心一些事情,谢谢。 我认为在没有上下文的情况下使用字典时,希望虽然单个句子可能存在一定量的噪音(错误分类),但聚合中会有足够的信号有意义。不过,我不确定如何用严格的统计数据来检验这一希望。【参考方案9】:

This paper from 2002 描述了一种算法,可以自动从文本样本中导出这样的字典,只使用两个单词作为种子集。

【讨论】:

问题是这种方法使用 AltaVista hits 来计算 PMI-IR,所以我认为这对于想要开始的人来说不是最佳选择。此外,它是一种无监督的方法,与有监督的方法相比,它的结果仍然不令人兴奋。 无法访问链接?能否请您提及页面的标题

以上是关于情绪分析词典的主要内容,如果未能解决你的问题,请参考以下文章

cntext:一款 Python文本分析包

用例建模Use Case Modeling

是否可以编辑 NLTK 的 vader 情绪词典?

情感分析思想(基于各种词典)

Python——用户评论情绪分析

Perl 或 Java 情绪分析