如何通过应用 WEKA 计算垃圾短信的“特征向量”？

Posted 2023-03-12

技术标签:

【中文标题】如何通过应用 WEKA 计算垃圾短信的“特征向量”？【英文标题】：How can I calculate "feature vector" of spam texts via application of WEKA? 【发布时间】：2016-03-24 20:21:12 【问题描述】：

我想实现邮件过滤；在 WEKA 应用中通过机器学习将电子邮件分类为垃圾邮件或合法（文本分类）。

如何通过 WEKA 应用获取数据集的“特征向量”？该向量应包含频率最高、权重最高的 100 个垃圾邮件词。

数据集：http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/smsSpamCollection.arff

【问题讨论】：

【参考方案1】：

我没有使用 WEKA，但我每年使用 Matlab 做同样的事情，这是斯坦福大学的 Andrew NG 博士在第 7 周提供的 coursera 机器课程的一部分。要创建特征向量，您可以搜索电子邮件以查看每个单词是否存在。那么特征向量将是一个由 0 和 1 组成的向量，其中 1 表示相应的单词存在，而 0 表示不存在。

【讨论】：

以上是关于如何通过应用 WEKA 计算垃圾短信的“特征向量”？的主要内容，如果未能解决你的问题，请参考以下文章

基于卷积神经网络(CNN)的中文垃圾邮件检测

关于使用独立数据集通过 weka 验证文本分类的问题