应该使用哪种机器学习技术进行消息分类

Posted

技术标签:

【中文标题】应该使用哪种机器学习技术进行消息分类【英文标题】:which machine learning technique should be used for message classification 【发布时间】:2016-12-16 16:35:56 【问题描述】:

我有一个包含客户信息的数据集,最终类别之一是以下示例-

key   message                                                  final category
1     i want customer care no i want to talk with ur team       other
2     hi I 9986443603cjhh had qkuiv1uhqllljqvocally q illgi vq  noclass
3     hai points not coming                                     checking

喜欢。数据集是一个巨大的文件,至少有 20 个最终类别类型。请提出适当的方法来对数据进行分类,并带有一条消息,这将是它的最终类别。我正在考虑用消息词制作 feature_vector 并将其输入贝叶斯会不会很棒?或者我必须使用其他技术。

非常感谢。

【问题讨论】:

【参考方案1】:

你可以考虑词嵌入。 您可以从here 下载嵌入(在此链接中-Glove,您也可以使用word2vec)。

这个想法是相似的词会有相似的向量。 将消息中的每个单词转换为向量后,您可以对所有向量进行平均(或者,使用 TF-IDF 进行平均以获得更好的结果)以获得消息的向量表示。 当然,像 qkuiv1uhqllljqvocally 这样的词不会出现在词汇表中。 要检查您的结果,您可以对所有向量进行聚类(使用 20 均值聚类,如果您有 20 个类),以查看相似的消息聚类到同一组。

【讨论】:

以上是关于应该使用哪种机器学习技术进行消息分类的主要内容,如果未能解决你的问题,请参考以下文章

一般来说,选择哪种机器学习分类器? [关闭]

我将如何确定我应该使用哪个评估指标来进行机器学习中的分类问题陈述?

决定使用哪种机器学习算法

给定问题使用哪种机器学习算法

垃圾邮件分类 - 机器学习

基于matlab使用机器学习和深度学习进行雷达目标分类