情绪分析的种子数据[关闭]
Posted
技术标签:
【中文标题】情绪分析的种子数据[关闭]【英文标题】:Seed data for sentiment analysis [closed] 【发布时间】:2010-11-14 19:58:06 【问题描述】:我正在玩情绪分析,我正在寻找一些种子数据。有免费的字典吗?
其实很简单:3 组文本/句子,分别代表“正面”、“负面”、“中性”。它不必很大。
最终我可能会为我的特定用例生成我自己的种子数据,但是在我构建这个东西的时候有一些东西可以玩会很棒。
【问题讨论】:
我有 Bing Lui 和 Minqing Hu 数据集(来自 amazon.com 上大约 9 种产品的大约 7000 条评论),我将它们放在 Excel 表上,其中每一个的综合平均得分。我还添加了来自网络的 3 种不同的免费情绪分析 API(ViralHeat、AlchemyAPI、repustate API)的分数,如果你想要我可以给你的 Excel 表。 cs.uic.edu/~liub/FBS/sentiment-analysis.html#lexicon @SherifMaherEaid:如何根据文章创建自己的词典? @user123 可能他将不同评论中使用的单词和短语分类为好、坏或中性。 +1 感谢您提出问题 :) 【参考方案1】:来自 UIC 的Bing Liu and Minqing Hu 有许多数据集:
http://www.cs.uic.edu/~liub/FBS/CustomerReviewData.zip http://www.cs.uic.edu/~liub/FBS/Reviews-9-products.rar来自康奈尔的Bo Pang 有更多。
【讨论】:
康奈尔数据看起来可以解决问题。谢谢!【参考方案2】:如果您对情感词典感兴趣,许多作者已经展示了基于手动构建列表的工作,以及其他用于获取自以为是术语列表的半自动化方法。一种好的方法是从WordNet 数据库中派生它,通过使用同义词等关系扩展肯定/否定词的核心。
手动构建列表的一个很好的例子是General Inquirer。
有关派生列表的半自动化方法,请查看 Esuli 和 Sebastiani 的 SentiWordNet。
我认为这些通常可用于研究,但您可能需要与作者联系,了解将这些资源用于非研究目的。
B.
【讨论】:
【参考方案3】:您可以在此处使用 AFINN 单词列表:
http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010
AFINN 是一个用整数表示价的英语单词列表 在负五(负)和正五(正)之间。话有 2009-2011 年由 Finn Årup Nielsen 手动标记。该文件是 制表符分隔。有两个版本:
AFINN-111:包含 2477 个单词和短语的最新版本。
AFINN-96:1480 行上的 1468 个唯一单词和短语。请注意,那里 是 1480 行,因为有些单词被列出了两次。 not中的单词列表 完全按字母顺序排列。
【讨论】:
【参考方案4】:我维护了一个用于情感分析的语料库和单词列表(我的 AFINN 就是其中之一):
http://neuro.compute.dtu.dk/wiki/Sentiment_analysis#Corpora
http://neuro.compute.dtu.dk/wiki/Sentiment_analysis#Affective_word_lists
【讨论】:
+1 感谢 AFINN 单词数据库。以上是关于情绪分析的种子数据[关闭]的主要内容,如果未能解决你的问题,请参考以下文章
在没有 Laravel 的情况下使用 Laravel 数据库迁移和种子 [关闭]
如何设计一个包含默认数据、种子数据以及用户生成数据的数据库表? [关闭]