关键词提取和基于关键词的文本分类

Posted

技术标签:

【中文标题】关键词提取和基于关键词的文本分类【英文标题】:keyword extraction and Keyword based text classification 【发布时间】:2021-03-09 02:59:38 【问题描述】:

目前我正在做一个需要关键字提取的项目,或者我们可以说基于关键字的文本分类。数据集包含 3 列文本、关键字和 cc 术语,我需要从文本中提取关键字,然后根据这些关键字对文本进行分类,数据集中的每一行都有自己的关键字,我想提取相似类型的关键字。我想通过提供文本和关键字列来训练模型,以便模型能够提取未知文本的关键字。请帮助

【问题讨论】:

【参考方案1】:

关键字提取通常使用TF-IDF scores 完成,只需设置分数阈值即可。在训练分类器时,在某个阈值处截断关键词并没有多大意义,因为知道某物不太可能是关键词也可能对分类器来说是一条有价值的信息。

获取特定单词的 TF-IDF 分数的最简单方法是在 scikit-learn 中使用 TfIdfVectorizer,它会执行所有费力的文本预处理步骤(标记化、删除停用词)。

通过针对分类任务微调 BERT,您可能会获得更好的结果(但当然要以更高的计算成本为代价)。

【讨论】:

请,如果您认为答案是正确的,请标记它,以便其他人也知道这篇文章回答了您的问题。 感谢您回答我的问题,这对我理解这个概念很有帮助

以上是关于关键词提取和基于关键词的文本分类的主要内容,如果未能解决你的问题,请参考以下文章

实战关键词提取

机器学习之自然语言处理——中文分词jieba库详解(代码+原理)

3 中文文本中的关键字提取

从文本中提取关键字

从短文本中提取和排名关键字

NLP(二十二):基于依存句法的关键词抽取算法