如何通过应用 WEKA 计算垃圾短信的“特征向量”?
Posted
技术标签:
【中文标题】如何通过应用 WEKA 计算垃圾短信的“特征向量”?【英文标题】:How can I calculate "feature vector" of spam texts via application of WEKA? 【发布时间】:2016-03-24 20:21:12 【问题描述】:我想实现邮件过滤;在 WEKA 应用中通过机器学习将电子邮件分类为垃圾邮件或合法(文本分类)。
如何通过 WEKA 应用获取数据集的“特征向量”?该向量应包含频率最高、权重最高的 100 个垃圾邮件词。
数据集:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/smsSpamCollection.arff
【问题讨论】:
【参考方案1】:我没有使用 WEKA,但我每年使用 Matlab 做同样的事情,这是斯坦福大学的 Andrew NG 博士在第 7 周提供的 coursera 机器课程的一部分。 要创建特征向量,您可以搜索电子邮件以查看每个单词是否存在。那么特征向量将是一个由 0 和 1 组成的向量,其中 1 表示相应的单词存在,而 0 表示不存在。
【讨论】:
以上是关于如何通过应用 WEKA 计算垃圾短信的“特征向量”?的主要内容,如果未能解决你的问题,请参考以下文章