用于情绪分析的好数据集? [关闭]

Posted

技术标签:

【中文标题】用于情绪分析的好数据集? [关闭]【英文标题】:Good dataset for sentiment analysis? [closed] 【发布时间】:2014-08-27 15:31:28 【问题描述】:

我正在进行情绪分析,我正在使用此链接中给出的数据集:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html,并且我已将我的数据集划分为 50:50 的比例。 50%作为测试样本,50%作为训练样本,从训练样本中提取特征并使用Weka分类器进行分类,但我的预测准确率在70-75%左右。

任何人都可以建议一些其他可以帮助我提高结果的数据集 - 我使用 unigram、bigram 和 POSTtags 作为我的特征。

【问题讨论】:

你可以试试这个kaggle.com/data/36745#latest-205286 【参考方案1】:

获取情感分析数据集的来源有很多:

来自谷歌storage.googleapis.com/books/ngrams/books/datasetsv2.html的巨大ngrams数据集 http://www.sananalytics.com/lab/twitter-sentiment/ http://inclass.kaggle.com/c/si650winter11/data http://nlp.stanford.edu/sentiment/treebank.html 或者您可以查看这个全球 ML 数据集存储库:https://archive.ics.uci.edu/ml

无论如何,这并不意味着它会帮助您为当前数据集获得更好的准确性,因为语料库可能与您的数据集有很大不同。除了降低与训练相比的测试百分比之外,您还可以:测试其他分类器或使用 CVParameterSelection 或 GridSearch 等半自动包装器微调所有超参数,如果合适的话,甚至可以使用 auto-weka。

很少使用 50/50,80/20 是相当普遍的比率。更好的做法是使用:60% 用于训练,20% 用于交叉验证,20% 用于测试。

【讨论】:

正如你所说,如果我减少训练百分比。它会影响学习过程。这意味着从较少的样本中学习会很困难。而且如果我增加训练百分比,它会导致过度拟合......就是这样为什么我采用 50:5) 比例.. 很少使用 50/50,80/20 是相当普遍的比率。更好的做法是使用:60% 用于训练,20% 用于交叉验证,20% 用于测试。 PS:我只记得来自谷歌storage.googleapis.com/books/ngrams/books/datasetsv2.html的这个巨大的ngram数据集@ 以下包含超过1,578,627个分类数据集thinknook.com/wp-content/uploads/2012/09/…或ai.stanford.edu/~amaas/data/sentiment kaggle.com/bittlingmayer/amazonreviews【参考方案2】:

我开始在一个地方收集情绪分析工具/数据集/词典,它也可能对你有用:https://github.com/laugustyniak/awesome-sentiment-analysis

如果您想添加更多内容或只是写信给我,请启动 PR。我在亚马逊数据 [数百万条评论] 上做了很多工作。

【讨论】:

【参考方案3】:

这里是给出单个单词情绪的数据集列表。 http://positivewordsresearch.com/sentiment-analysis-resources/

【讨论】:

虽然此链接可能会回答问题,但最好在此处包含答案的基本部分并提供链接以供参考。如果链接页面发生更改,仅链接答案可能会失效。 - From Review 如果有机会我会尝试把链接放在这里

以上是关于用于情绪分析的好数据集? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

情绪分析的种子数据[关闭]

文本中情感检测的数据集[关闭]

如何使用 2 个数据集,1 个用于训练,1 个用于在 WEKA 上进行情感分析测试

社交媒体情感分类数据集

用于情绪分析的 Mahout

如何通过简单的模拟模型生成人工数据集,用于具有二元响应和 4-5 特征的分类分析? [关闭]