我应该如何在包含文本的训练集上使用机器学习分类器?

Posted

技术标签:

【中文标题】我应该如何在包含文本的训练集上使用机器学习分类器?【英文标题】:How should I use machine learning classifiers on a a training set that contains text? 【发布时间】:2014-11-06 15:39:50 【问题描述】:

我正在通过查看日志文件来查找错误并预测其可能的原因。 为了在其上应用分类器,我需要将文本设为数字。我可以通过 NER 识别关键字并需要将其用作训练集。谁能建议我一些方法来做到这一点?

【问题讨论】:

【参考方案1】:

Swapnil,人们通常通过将其表示为向量来“使文本数字化”:您枚举您在训练集中看到的所有单词,然后为文档中的每个单词设置一个大的第 n 个元素向量。这种方法通常称为Vector Space Model 在您的情况下,某些单词和单词组合可能是“特殊的”(例如日志消息开头的“ERROR”和“WARNING”),您可以将它们分组在向量的开头,并与解释文本 - 例如,根据您分配给它们的值。 (显然,如果您可以使用命名实体识别检测整个实体,则您将每个实体视为向量中的一个元素。)

【讨论】:

感谢 Alex 的输入。

以上是关于我应该如何在包含文本的训练集上使用机器学习分类器?的主要内容,如果未能解决你的问题,请参考以下文章

文本分类(机器学习方法)

使用机器学习的情感分析分类器

机器学习系列-Bagging与随机森林

数据分析训练-Pima印第安人数据集上的机器学习-分类算法(根据诊断措施预测糖尿病的发病)

深度学习笔记:利用预训练模型之特征提取训练小数据集上的图像分类器

[视频] 数据超市对于文本数据挖掘的流程 机器学习如何搭建文本分类器