如何使用 weka 将电子邮件数据表示为基于讨论主题的分类输入?

Posted

技术标签:

【中文标题】如何使用 weka 将电子邮件数据表示为基于讨论主题的分类输入?【英文标题】:how to represent email data as input for classification based on discussion topic using weka? 【发布时间】:2012-02-03 05:20:56 【问题描述】:

重复:How to represent text for classification in weka?

如果我的数据是电子邮件,即文本数据,分类器的输入是什么?我需要考虑在电子邮件中设置哪些属性/功能来根据讨论主题进行分类?

【问题讨论】:

【参考方案1】:

通常,使用 TF-IDF 将输入数据转换为稀疏向量。

【讨论】:

以上是关于如何使用 weka 将电子邮件数据表示为基于讨论主题的分类输入?的主要内容,如果未能解决你的问题,请参考以下文章

如何通过应用 WEKA 计算垃圾短信的“特征向量”?

关于使用独立数据集通过 weka 验证文本分类的问题

使用 Weka 进行文本分类

使用 Weka 进行文本分类

如何在 weka 中使用高尔距离进行 KNN?

如何从 libSVM 中使用的数据集转换为 weka 中使用的格式数据(*.arff 或 *.csv)