如何从文本中提取 COMPLAINT 特征，以便对非投诉文本中的投诉进行分类

Posted 2023-03-13

技术标签:

【中文标题】如何从文本中提取 COMPLAINT 特征，以便对非投诉文本中的投诉进行分类【英文标题】：How to extract COMPLAINT features from texts in order to classify complaints from non-complaints texts 【发布时间】：2017-09-23 06:32:59 【问题描述】：

我有大约 6000 个文本的语料库，其中包含来自社交网络（FB、twitter）的 cmets、来自一般和区域新闻和杂志等的新闻内容。我浏览了前 300 个文本并标记了这 300 个文本中的每一个' 内容为客户投诉或非投诉。

我想知道如何准确提取这些投诉和非投诉文本的特征，而不是幼稚的词袋方式？我的目标是使用 SVM 或其他分类算法/库（如 Liblinear）最准确地将其余这些文本分类为当前训练集的 300 个文本的投诉或非投诉。这个过程类似于情绪分析吗？如果没有，我应该从哪里开始？

【问题讨论】：

【参考方案1】：

我想你会发现词袋并不那么幼稚。实际上，将数据提供给 SVM 是一种非常有效的表示数据的方式。如果这不能为您提供足够的准确度，您始终可以在特征向量中包含二元组，即单词对，而不仅仅是一元组。

【讨论】：

以上是关于如何从文本中提取 COMPLAINT 特征，以便对非投诉文本中的投诉进行分类的主要内容，如果未能解决你的问题，请参考以下文章

SVM：向从图像中提取的特征向量添加临床特征

[机器学习与scikit-learn-43]：特征工程-特征提取(编码)-2-什么是特征提取以及文本词频向量