应该使用哪种机器学习技术进行消息分类
Posted
技术标签:
【中文标题】应该使用哪种机器学习技术进行消息分类【英文标题】:which machine learning technique should be used for message classification 【发布时间】:2016-12-16 16:35:56 【问题描述】:我有一个包含客户信息的数据集,最终类别之一是以下示例-
key message final category
1 i want customer care no i want to talk with ur team other
2 hi I 9986443603cjhh had qkuiv1uhqllljqvocally q illgi vq noclass
3 hai points not coming checking
喜欢。数据集是一个巨大的文件,至少有 20 个最终类别类型。请提出适当的方法来对数据进行分类,并带有一条消息,这将是它的最终类别。我正在考虑用消息词制作 feature_vector 并将其输入贝叶斯会不会很棒?或者我必须使用其他技术。
非常感谢。
【问题讨论】:
【参考方案1】:你可以考虑词嵌入。
您可以从here 下载嵌入(在此链接中-Glove
,您也可以使用word2vec
)。
这个想法是相似的词会有相似的向量。
将消息中的每个单词转换为向量后,您可以对所有向量进行平均(或者,使用 TF-IDF
进行平均以获得更好的结果)以获得消息的向量表示。
当然,像 qkuiv1uhqllljqvocally 这样的词不会出现在词汇表中。
要检查您的结果,您可以对所有向量进行聚类(使用 20 均值聚类,如果您有 20 个类),以查看相似的消息聚类到同一组。
【讨论】:
以上是关于应该使用哪种机器学习技术进行消息分类的主要内容,如果未能解决你的问题,请参考以下文章