文本中情感检测的数据集[关闭]

Posted

技术标签:

【中文标题】文本中情感检测的数据集[关闭]【英文标题】:Data sets for emotion detection in text [closed] 【发布时间】:2015-08-22 14:03:01 【问题描述】:

我正在实现一个可以检测文本中人类情感的系统。是否有任何手动注释的数据集可用于监督学习和测试?

以下是一些有趣的数据集: https://dataturks.com/projects/trending

【问题讨论】:

如果您在谈论情绪检测/意见挖掘:是的,有许多共享任务。我很确定 Google 会找到其中的一些。 其实不是情绪。我想要一个数据集,将单词分类为不同的情绪。我试过谷歌,但没有找到一个好的 你在寻找类似的东西,死亡:感觉(悲伤)出生:感觉(快乐) 你可以在这里查看一些有趣的数据集:dataturks.com/projects/trending 以上 dataturks 链接无效。你能指出更新的链接吗? 【参考方案1】:

文本情感检测领域仍然很新,文献分散在不同领域的许多不同期刊中。真的很难看清楚那里有什么。

请注意,心理学有几种情绪理论。因此,在计算中有不同的建模/表示情绪的方法。大多数时候,“情绪”是指愤怒、恐惧或喜悦等现象。其他理论指出,所有情绪都可以在多维空间中表示(因此它们的数量是无限的)。

这是我知道的一些(公开的)数据集(更新):

    表情银行。用 Valence、Arousal 和 Dominance 值注释的 10k 个句子(披露:我是作者之一)。 https://github.com/JULIELab/EmoBank

    来自 WASSA 2017 共享任务的“推文中的情绪强度”数据集。 http://saifmohammad.com/WebPages/EmotionIntensity-SharedTask.html

    Preotiuc-Pietro 和 其他: http://wwbp.org/downloads/public_data/dataset-fb-valence-arousal-anon.csv

    Cecilia Ovesdotter Alm 的影响数据: http://people.rc.rit.edu/~coagla/affectdata/index.html

    CrowdFlower 文本数据集的情感 https://www.crowdflower.com/wp-content/uploads/2016/07/text_emotion.csv

    ISEAR: http://emotion-research.net/toolbox/toolboxdatabase.2006-10-13.2581092615

    SemEval 2007 测试语料库(情感文本任务) http://web.eecs.umich.edu/~mihalcea/downloads.html

    带有情绪的 SemEval Stance 数据的重新注释: http://www.ims.uni-stuttgart.de/data/ssec

如果您想深入了解该主题,这里有一些我推荐的调查(披露:我撰写了第一个)。

    Buechel, S. 和 Hahn, U. (2016)。作为回归问题的情绪分析——维度模型及其对情绪表示和度量评估的影响。在 ECAI 2016.22 届欧洲人工智能会议上(第 1114-1122 页)。荷兰海牙(联系方式:http://ebooks.iospress.nl/volumearticle/44864)。

    Canales, L. 和 Martínez-Barco, P.(未注明日期)。从文本中检测情绪:一项调查。第 5 个信息系统研究工作日 (JISIC 2014) 中的处理,37(可用:http://www.aclweb.org/anthology/W14-6905)。

【讨论】:

另一个可能有用的资源是 Saif Mohammad 的hash tag emotion corpus。有关数据的更多信息,请参阅this page @beuchel 你知道我可以用来将你的 EmoBank 效价和唤醒标签转换为标准情绪标签的资源吗?我想简单地在轴值上使用阈值并将各个区域映射到不同的情绪应该可以工作。不过,我似乎找不到应该用于阈值的值。 @SiddharthKumar 我猜你真的可以使用任何机器学习技术来做到这一点。实际上,论文中描述了一个关于它的实验。 @buechel 我打算这样做,但我想我会问专家是否有普遍同意的阈值来决定价唤醒平面中的某个区域是否代表一种情绪。关于接受价/唤醒向量并输出情绪的分类器,我在哪里可以找到这个简单任务的训练数据?您的存储库提到数据的一个子集用标准情绪进行了注释,但我似乎找不到该数据集。也许我错过了什么。 我对@buechel 的回答几乎没有意见。 1. ISEAR 在引用的 url 下不再可用。 2. 我建议您查看论文“An Analysis of Annotated Corpora forEmotion Classification in Text”以获取更多和更新的情感检测数据集:aclweb.org/anthology/C18-1179

以上是关于文本中情感检测的数据集[关闭]的主要内容,如果未能解决你的问题,请参考以下文章

自然语言处理(NLP)基于GRU实现情感分类

NLP文本情感分类

自然语言处理(NLP)基于循环神经网络实现情感分类

用RNN & CNN进行情感分析 - PyTorch

MXNet中使用双向循环神经网络BiRNN对文本进行情感分类

实训项目:基于TextCNN汽车行业评论文本的情感分析