如何将训练数据转换为 weka 分类器的测试数据?

Posted

技术标签:

【中文标题】如何将训练数据转换为 weka 分类器的测试数据?【英文标题】:How to convert training data to test data for weka classifier? 【发布时间】:2014-11-27 05:49:53 【问题描述】:

我有训练数据 (.arff),我想转换为测试数据。

这是我的训练数据:

@relation fix_labeled_tweet

@attribute Text string
@attribute class-att relevant,not_relevant,additional

@data
'pvj dengan ciwalk masih tetap jadi tempat fav untuk belanja;',additional
'deta di bandung trade centre btc fashion mall;',additional
'promo hotel bandung ibis trans studio enjoy our special price akan your wonderful weekend periode s di 27 desember;',not_relevant
'indri  theressa di cihampelas walk ciwalk;',additional
'beiga we  di jatinangor town square jatos;',additional
'nonton di paris van java my husband;',relevant
'mainya seringnya ke paris van java mall miko mall mana;',not_relevant
'double date yeahhhh  di braga city walk;',relevant
'sinta di jatinangor town square jatos;',additional
'terimakasih tas dompet teguh di cihampelas walk ciwalk;',additional
'malam minggu miko the movie di cinema 21 mall panakukang;',additional
'karaokean sekalian dugem patriot  handrian di inul vista paskal hypersquare;',relevant
'makan di mujigae korean resto ciwalk;',relevant
'just posted a photo bandung trade center;',additional

我尝试从数据中删除标签 (addition,relevant,not_relevant),然后我保存为不同的名称,但它不起作用。 Weka 说训练集和测试集不兼容。

【问题讨论】:

【参考方案1】:

它们是不兼容的,因为训练集和测试集的结构不同。

如果您复制了文档(例如 Testing.arff),然后将其作为测试集提供,那么分类器将接受该文件。但是,如果您从测试文件中删除使用的属性,则该文档将无法使用,因为缺少某些输入(用于分类)或输出(用于评估)。

我已经能够在删除类输出时复制您的问题,但是在复制文档时,测试集按预期正常工作。

希望这会有所帮助!

【讨论】:

如果他担心测试文件中的类属性可用,我建议用?替换数据中的实际标签。这表明 .arff 中缺少值,并且文件将具有相同的结构。 cs.waikato.ac.nz/ml/weka/arff.html

以上是关于如何将训练数据转换为 weka 分类器的测试数据?的主要内容,如果未能解决你的问题,请参考以下文章

weka中用J48(即C4.5)算法对数据集进行训练建模与测试,结果不是很理想,

如何在 WEKA 中测试分类数据集?

在 Weka 中级联分类器的错误方法

如何提高 Weka 中 SMO 分类器的性能?

WEKA - 分类 - 训练和测试集

Java:如何坚持 Weka 朴素贝叶斯分类器?