用于情绪分析的好数据集？ [关闭]

Posted 2023-02-16

技术标签:

【中文标题】用于情绪分析的好数据集？ [关闭]【英文标题】：Good dataset for sentiment analysis? [closed] 【发布时间】：2014-08-27 15:31:28 【问题描述】：

我正在进行情绪分析，我正在使用此链接中给出的数据集：http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html，并且我已将我的数据集划分为 50:50 的比例。 50%作为测试样本，50%作为训练样本，从训练样本中提取特征并使用Weka分类器进行分类，但我的预测准确率在70-75%左右。

任何人都可以建议一些其他可以帮助我提高结果的数据集 - 我使用 unigram、bigram 和 POSTtags 作为我的特征。

【问题讨论】：

你可以试试这个kaggle.com/data/36745#latest-205286 【参考方案1】：

获取情感分析数据集的来源有很多：

来自谷歌storage.googleapis.com/books/ngrams/books/datasetsv2.html的巨大ngrams数据集 http://www.sananalytics.com/lab/twitter-sentiment/ http://inclass.kaggle.com/c/si650winter11/data http://nlp.stanford.edu/sentiment/treebank.html 或者您可以查看这个全球 ML 数据集存储库：https://archive.ics.uci.edu/ml

无论如何，这并不意味着它会帮助您为当前数据集获得更好的准确性，因为语料库可能与您的数据集有很大不同。除了降低与训练相比的测试百分比之外，您还可以：测试其他分类器或使用 CVParameterSelection 或 GridSearch 等半自动包装器微调所有超参数，如果合适的话，甚至可以使用 auto-weka。

很少使用 50/50，80/20 是相当普遍的比率。更好的做法是使用：60% 用于训练，20% 用于交叉验证，20% 用于测试。

【讨论】：

正如你所说，如果我减少训练百分比。它会影响学习过程。这意味着从较少的样本中学习会很困难。而且如果我增加训练百分比，它会导致过度拟合......就是这样为什么我采用 50:5) 比例.. 很少使用 50/50，80/20 是相当普遍的比率。更好的做法是使用：60% 用于训练，20% 用于交叉验证，20% 用于测试。 PS：我只记得来自谷歌storage.googleapis.com/books/ngrams/books/datasetsv2.html的这个巨大的ngram数据集@ 以下包含超过1,578,627个分类数据集thinknook.com/wp-content/uploads/2012/09/…或ai.stanford.edu/~amaas/data/sentiment kaggle.com/bittlingmayer/amazonreviews【参考方案2】：

我开始在一个地方收集情绪分析工具/数据集/词典，它也可能对你有用：https://github.com/laugustyniak/awesome-sentiment-analysis

如果您想添加更多内容或只是写信给我，请启动 PR。我在亚马逊数据 [数百万条评论] 上做了很多工作。

【讨论】：

【参考方案3】：

这里是给出单个单词情绪的数据集列表。 http://positivewordsresearch.com/sentiment-analysis-resources/

【讨论】：

虽然此链接可能会回答问题，但最好在此处包含答案的基本部分并提供链接以供参考。如果链接页面发生更改，仅链接答案可能会失效。 - From Review 如果有机会我会尝试把链接放在这里

以上是关于用于情绪分析的好数据集？ [关闭]的主要内容，如果未能解决你的问题，请参考以下文章

情绪分析的种子数据[关闭]

文本中情感检测的数据集[关闭]

如何使用 2 个数据集，1 个用于训练，1 个用于在 WEKA 上进行情感分析测试

社交媒体情感分类数据集

用于情绪分析的 Mahout

如何通过简单的模拟模型生成人工数据集，用于具有二元响应和 4-5 特征的分类分析？ [关闭]