情绪分析的种子数据[关闭]

Posted

技术标签:

【中文标题】情绪分析的种子数据[关闭]【英文标题】:Seed data for sentiment analysis [closed] 【发布时间】:2010-11-14 19:58:06 【问题描述】:

我正在玩情绪分析,我正在寻找一些种子数据。有免费的字典吗?

其实很简单:3 组文本/句子,分别代表“正面”、“负面”、“中性”。它不必很大。

最终我可能会为我的特定用例生成我自己的种子数据,但是在我构建这个东西的时候有一些东西可以玩会很棒。

【问题讨论】:

我有 Bing Lui 和 Minqing Hu 数据集(来自 amazon.com 上大约 9 种产品的大约 7000 条评论),我将它们放在 Excel 表上,其中每一个的综合平均得分。我还添加了来自网络的 3 种不同的免费情绪分析 API(ViralHeat、AlchemyAPI、repustate API)的分数,如果你想要我可以给你的 Excel 表。 cs.uic.edu/~liub/FBS/sentiment-analysis.html#lexicon @SherifMaherEaid:如何根据文章创建自己的词典? @user123 可能他将不同评论中使用的单词和短语分类为好、坏或中性。 +1 感谢您提出问题 :) 【参考方案1】:

来自 UIC 的Bing Liu and Minqing Hu 有许多数据集:

http://www.cs.uic.edu/~liub/FBS/CustomerReviewData.zip http://www.cs.uic.edu/~liub/FBS/Reviews-9-products.rar

来自康奈尔的Bo Pang 有更多。

【讨论】:

康奈尔数据看起来可以解决问题。谢谢!【参考方案2】:

如果您对情感词典感兴趣,许多作者已经展示了基于手动构建列表的工作,以及其他用于获取自以为是术语列表的半自动化方法。一种好的方法是从WordNet 数据库中派生它,通过使用同义词等关系扩展肯定/否定词的核心。

手动构建列表的一个很好的例子是General Inquirer。

有关派生列表的半自动化方法,请查看 Esuli 和 Sebastiani 的 SentiWordNet。

我认为这些通常可用于研究,但您可能需要与作者联系,了解将这些资源用于非研究目的。

B.

【讨论】:

【参考方案3】:

您可以在此处使用 AFINN 单词列表:

http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010

AFINN 是一个用整数表示价的英语单词列表 在负五(负)和正五(正)之间。话有 2009-2011 年由 Finn Årup Nielsen 手动标记。该文件是 制表符分隔。有两个版本:

AFINN-111:包含 2477 个单词和短语的最新版本。

AFINN-96:1480 行上的 1468 个唯一单词和短语。请注意,那里 是 1480 行,因为有些单词被列出了两次。 not中的单词列表 完全按字母顺序排列。

【讨论】:

【参考方案4】:

我维护了一个用于情感分析的语料库和单词列表(我的 AFINN 就是其中之一):

http://neuro.compute.dtu.dk/wiki/Sentiment_analysis#Corpora

http://neuro.compute.dtu.dk/wiki/Sentiment_analysis#Affective_word_lists

【讨论】:

+1 感谢 AFINN 单词数据库。

以上是关于情绪分析的种子数据[关闭]的主要内容,如果未能解决你的问题,请参考以下文章

基于神经网络的种子表型分析

在没有 Laravel 的情况下使用 Laravel 数据库迁移和种子 [关闭]

如何设计一个包含默认数据、种子数据以及用户生成数据的数据库表? [关闭]

bt种子文件文件结构分析(转)

B编码与BT种子文件分析,以及模仿json-cpp写一个B编码解析器

咖啡价格分析