如何通过应用 WEKA 计算垃圾短信的“特征向量”?

Posted

技术标签:

【中文标题】如何通过应用 WEKA 计算垃圾短信的“特征向量”?【英文标题】:How can I calculate "feature vector" of spam texts via application of WEKA? 【发布时间】:2016-03-24 20:21:12 【问题描述】:

我想实现邮件过滤;在 WEKA 应用中通过机器学习将电子邮件分类为垃圾邮件或合法(文本分类)。

如何通过 WEKA 应用获取数据集的“特征向量”?该向量应包含频率最高、权重最高的 100 个垃圾邮件词。

数据集:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/smsSpamCollection.arff

【问题讨论】:

【参考方案1】:

我没有使用 WEKA,但我每年使用 Matlab 做同样的事情,这是斯坦福大学的 Andrew NG 博士在第 7 周提供的 coursera 机器课程的一部分。 要创建特征向量,您可以搜索电子邮件以查看每个单词是否存在。那么特征向量将是一个由 0 和 1 组成的向量,其中 1 表示相应的单词存在,而 0 表示不存在。

【讨论】:

以上是关于如何通过应用 WEKA 计算垃圾短信的“特征向量”?的主要内容,如果未能解决你的问题,请参考以下文章

使用 weka 增加属性的维度?

如何计算无向网络的特征向量中心性

特征向量怎么求

怎么求特征向量

基于卷积神经网络(CNN)的中文垃圾邮件检测

关于使用独立数据集通过 weka 验证文本分类的问题