为 NLP 聚类/主题建模寻找一个好的数据集

Posted

技术标签:

【中文标题】为 NLP 聚类/主题建模寻找一个好的数据集【英文标题】:Looking for a good dataset for NLP clustering/topic modelling 【发布时间】:2021-11-22 23:55:54 【问题描述】:

我想到的是一个客户反馈数据集,这样的数据集可以很好地划分为集群/主题(不同类型的反馈)。我发现很难在我通常使用的 kaggle 上找到这样的数据集。任何人都对适合用于 NLP 聚类(如 Kmeans/分层聚类)或主题建模模型(如 lDA 等)的数据集提出建议。

【问题讨论】:

【参考方案1】:

你可以在https://huggingface.co/datasets找到你要找的东西

这个例子你可能会感兴趣https://huggingface.co/datasets/amazon_polarity

要使用它,请安装库:

pip install datasets

然后在 Python 中:

from datasets import load_dataset
dataset = load_dataset('amazon_polarity')

【讨论】:

以上是关于为 NLP 聚类/主题建模寻找一个好的数据集的主要内容,如果未能解决你的问题,请参考以下文章

R语言对NASA元数据进行文本挖掘的主题建模分析

如何利用常见的文本挖掘方法去探索分子数据集?

我在哪里可以找到一组带有真实标签的基准聚类数据集?

图像聚类的代码和数据集(小尺寸)

严重不平衡/倾斜的数据集群

论文泛读186QA 数据集爆炸:用于问答和阅读理解的 NLP 资源分类