如何为 SVM 机器学习算法转换字符串数据

Posted

技术标签:

【中文标题】如何为 SVM 机器学习算法转换字符串数据【英文标题】:How String data is converted for SVM machine learning algorithm 【发布时间】:2020-09-18 13:14:08 【问题描述】:

我有一个数据集,即

<table>
<tr><td>TEXT</td><td>TYPE</td></tr>
<tr><td>100% free cashback </td><td>spam</td></tr>
<tr><td>hello how are you </td><td>ham</td></tr>
<tr><td>click on this link to get free sms plan</td><td>spam</td></tr></table>     

我想知道 SVM 机器学习算法如何将此文本列转换为在图表上绘图,以便它可以推断出将垃圾邮件与火腿分开的线。

我知道 spam 和 ham 可以分别转换为 0,1。但是如何将此文本列转换为数值??

注意:我想要这个程序。我想使用笔和纸手动完成,而不是使用某些 python 库编写代码。

【问题讨论】:

【参考方案1】:

只是为了让我们在同一页面上: 您正在寻找有关如何解决 Spam Vs 的程序。使用笔和纸进行业余电子邮件分类。

从基础开始,文本数据不能直接发送到模型, 1. 我们需要进行数据清理,以便我们以矩阵形式提取多个特征/特征(1 行 = 1 封电子邮件,1 列 = 1 个特征),一个特征/特征可以是任何深度嵌入(Doc2Vec)上的一个词电子邮件。 2. 同样,我们还创建了一个目标数据(1 行表示垃圾邮件为 1,非垃圾邮件为 0) 一旦你有了这两个数据,你就可以手动求解 SVM 算法,假设所有列在 N 维数据平面中都是不同的轴。

【讨论】:

以上是关于如何为 SVM 机器学习算法转换字符串数据的主要内容,如果未能解决你的问题,请参考以下文章

如何为机器学习和预测构建良好的训练数据集?

机器学习笔记—svm算法(上)

机器学习/人工智能的笔试面试题目——SVM算法相关问题总结

白话机器学习算法理论+实战之支持向量机(SVM)

机器学习算法总结--SVM

机器学习总结笔记