为 NLP 聚类/主题建模寻找一个好的数据集
Posted
技术标签:
【中文标题】为 NLP 聚类/主题建模寻找一个好的数据集【英文标题】:Looking for a good dataset for NLP clustering/topic modelling 【发布时间】:2021-11-22 23:55:54 【问题描述】:我想到的是一个客户反馈数据集,这样的数据集可以很好地划分为集群/主题(不同类型的反馈)。我发现很难在我通常使用的 kaggle 上找到这样的数据集。任何人都对适合用于 NLP 聚类(如 Kmeans/分层聚类)或主题建模模型(如 lDA 等)的数据集提出建议。
【问题讨论】:
【参考方案1】:你可以在https://huggingface.co/datasets找到你要找的东西
这个例子你可能会感兴趣https://huggingface.co/datasets/amazon_polarity
要使用它,请安装库:
pip install datasets
然后在 Python 中:
from datasets import load_dataset
dataset = load_dataset('amazon_polarity')
【讨论】:
以上是关于为 NLP 聚类/主题建模寻找一个好的数据集的主要内容,如果未能解决你的问题,请参考以下文章