用于情绪分析的好数据集? [关闭]
Posted
技术标签:
【中文标题】用于情绪分析的好数据集? [关闭]【英文标题】:Good dataset for sentiment analysis? [closed] 【发布时间】:2014-08-27 15:31:28 【问题描述】:我正在进行情绪分析,我正在使用此链接中给出的数据集:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html
,并且我已将我的数据集划分为 50:50 的比例。 50%作为测试样本,50%作为训练样本,从训练样本中提取特征并使用Weka分类器进行分类,但我的预测准确率在70-75%左右。
任何人都可以建议一些其他可以帮助我提高结果的数据集 - 我使用 unigram、bigram 和 POSTtags 作为我的特征。
【问题讨论】:
你可以试试这个kaggle.com/data/36745#latest-205286 【参考方案1】:获取情感分析数据集的来源有很多:
来自谷歌storage.googleapis.com/books/ngrams/books/datasetsv2.html的巨大ngrams数据集 http://www.sananalytics.com/lab/twitter-sentiment/ http://inclass.kaggle.com/c/si650winter11/data http://nlp.stanford.edu/sentiment/treebank.html 或者您可以查看这个全球 ML 数据集存储库:https://archive.ics.uci.edu/ml无论如何,这并不意味着它会帮助您为当前数据集获得更好的准确性,因为语料库可能与您的数据集有很大不同。除了降低与训练相比的测试百分比之外,您还可以:测试其他分类器或使用 CVParameterSelection 或 GridSearch 等半自动包装器微调所有超参数,如果合适的话,甚至可以使用 auto-weka。
很少使用 50/50,80/20 是相当普遍的比率。更好的做法是使用:60% 用于训练,20% 用于交叉验证,20% 用于测试。
【讨论】:
正如你所说,如果我减少训练百分比。它会影响学习过程。这意味着从较少的样本中学习会很困难。而且如果我增加训练百分比,它会导致过度拟合......就是这样为什么我采用 50:5) 比例.. 很少使用 50/50,80/20 是相当普遍的比率。更好的做法是使用:60% 用于训练,20% 用于交叉验证,20% 用于测试。 PS:我只记得来自谷歌storage.googleapis.com/books/ngrams/books/datasetsv2.html的这个巨大的ngram数据集@ 以下包含超过1,578,627个分类数据集thinknook.com/wp-content/uploads/2012/09/…或ai.stanford.edu/~amaas/data/sentiment kaggle.com/bittlingmayer/amazonreviews【参考方案2】:我开始在一个地方收集情绪分析工具/数据集/词典,它也可能对你有用:https://github.com/laugustyniak/awesome-sentiment-analysis
如果您想添加更多内容或只是写信给我,请启动 PR。我在亚马逊数据 [数百万条评论] 上做了很多工作。
【讨论】:
【参考方案3】:这里是给出单个单词情绪的数据集列表。 http://positivewordsresearch.com/sentiment-analysis-resources/
【讨论】:
虽然此链接可能会回答问题,但最好在此处包含答案的基本部分并提供链接以供参考。如果链接页面发生更改,仅链接答案可能会失效。 - From Review 如果有机会我会尝试把链接放在这里以上是关于用于情绪分析的好数据集? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章