如何为 SVM 机器学习算法转换字符串数据
Posted
技术标签:
【中文标题】如何为 SVM 机器学习算法转换字符串数据【英文标题】:How String data is converted for SVM machine learning algorithm 【发布时间】:2020-09-18 13:14:08 【问题描述】:我有一个数据集,即
<table>
<tr><td>TEXT</td><td>TYPE</td></tr>
<tr><td>100% free cashback </td><td>spam</td></tr>
<tr><td>hello how are you </td><td>ham</td></tr>
<tr><td>click on this link to get free sms plan</td><td>spam</td></tr></table>
我想知道 SVM 机器学习算法如何将此文本列转换为在图表上绘图,以便它可以推断出将垃圾邮件与火腿分开的线。
我知道 spam 和 ham 可以分别转换为 0,1。但是如何将此文本列转换为数值??
注意:我想要这个程序。我想使用笔和纸手动完成,而不是使用某些 python 库编写代码。
【问题讨论】:
【参考方案1】:只是为了让我们在同一页面上: 您正在寻找有关如何解决 Spam Vs 的程序。使用笔和纸进行业余电子邮件分类。
从基础开始,文本数据不能直接发送到模型, 1. 我们需要进行数据清理,以便我们以矩阵形式提取多个特征/特征(1 行 = 1 封电子邮件,1 列 = 1 个特征),一个特征/特征可以是任何深度嵌入(Doc2Vec)上的一个词电子邮件。 2. 同样,我们还创建了一个目标数据(1 行表示垃圾邮件为 1,非垃圾邮件为 0) 一旦你有了这两个数据,你就可以手动求解 SVM 算法,假设所有列在 N 维数据平面中都是不同的轴。
【讨论】:
以上是关于如何为 SVM 机器学习算法转换字符串数据的主要内容,如果未能解决你的问题,请参考以下文章