如何构建和标记用于情感分析的非英语数据集

Posted

技术标签:

【中文标题】如何构建和标记用于情感分析的非英语数据集【英文标题】:how to build and label a non english dataset for sentiment analysis 【发布时间】:2020-01-23 06:35:50 【问题描述】:

最近我开始了一个关于情感分析的新项目,我应该用波斯语构建一个数据集。虽然构建数据集对于整个过程的准确性很重要,但我想尽我所能。在短时间内构建和标记它的最佳方法是什么?

【问题讨论】:

【参考方案1】:

您可以使用可用的数据集作为您的参考。获取情感分析数据集的来源有很多:

google

sananalytics

kaggle

stanford

这里是给出单个单词情绪的数据集列表。

positivewordsresearch

我建议您使用上述数据集,以增加您对数据集及其标签的了解。

通常情绪数据集使用有限的标签,例如 “正面/负面”或 “快乐”、“悲伤”、“愤怒”和“中性”或 “愤怒”、“悲伤”、“惊讶”、“恐惧”、“厌恶”和“喜悦”

希望对你有用。

【讨论】:

真正的问题是它应该是波斯语的。我该怎么办? 我已经拿到了!最好对相关数据集有良好的背景知识。另一个建议是根据您的目标通过审查现有数据集逐步创建您的数据集。换句话说,您应该使用现有数据集作为任何语言的新数据集的模板。所有步骤都需要对旧语言和新语言有很好的了解。 @kosarafrooshe np。 @kosarafrooshe

以上是关于如何构建和标记用于情感分析的非英语数据集的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 2 个数据集,1 个用于训练,1 个用于在 WEKA 上进行情感分析测试

Keras深度学习实战(28)——利用单词向量构建情感分析模型

Bilstm中文微博多情感分析

Keras深度学习实战——使用长短时记忆网络构建情感分析模型

情感分析之TF-IDF算法

情感分析Baseline