对文本进行分类的 NLP 步骤或方法?

Posted

技术标签:

【中文标题】对文本进行分类的 NLP 步骤或方法?【英文标题】:NLP-steps or approch to classify text? 【发布时间】:2017-06-05 11:32:33 【问题描述】:

我正在开展一个项目,根据情绪(正面或负面)对餐厅评论进行分类。我还想分类这些 cmets 是否属于食品、服务、物有所值等类别。我无法链接互联网上提供的步骤或方法。谁能提供详细的方法或步骤来解决问题。

【问题讨论】:

【参考方案1】:

如何使用词袋模型。它经过多年的尝试和测试。与更现代的方法相比,它有一些缺点,但您仍然可以获得不错的结果。互联网上有大量资料可以帮助您:

将文档规范化为您的管道可提取的形式 将文档转换为向量并执行 TF-IDF 以过滤不相关的术语。 Here is a good tutorial。并将它们转换为矢量形式。 拆分您的文档,获取一些文档子集,并根据类别 ( Sentiment ) / cmets 类型标记属于训练数据的那些。显然,您的文档将属于两个类别。 应用某种类型的降维技术来使您的模型更加健壮,good discussion is here 根据训练数据训练模型。您至少需要两个模型,一个用于情绪,一个用于类型。某些算法仅适用于二进制类,因此您可能需要的不仅仅是评论类型(食物、价值、服务)的模型。这可能是一件好事,因为评论可以属于多个类别(食品质量和价值,或价值和服务)。 Scikit-learn 有很多好的模型,我也强烈推荐orange toolbox,它就像一个数据科学的 GUI。 使用验证集验证您的模型。如果您的准确率令人满意(大多数经典方法(如 SVM)应该至少为您提供 90% 的准确率),请继续将其用于传入数据

【讨论】:

以上是关于对文本进行分类的 NLP 步骤或方法?的主要内容,如果未能解决你的问题,请参考以下文章

【论文笔记】融合标签向量到BERT:对文本分类进行改进

如何解决基于 NLP 的 CNN 模型中的过度拟合问题,以使用词嵌入进行多类文本分类?

NLP文本情感分类

NLP的文本分析与特征工程

NLP-08textRNN

查找文本的相似程度 - 一类分类器 (NLP)