Weka入门——数据文件

Posted 橘猫吃不胖~

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Weka入门——数据文件相关的知识,希望对你有一定的参考价值。

本文主要介绍在 Explorer 方式下使用 Weka 的主要方法。下图是 Weka 的初始启动界面,单机其中的 Explorer 按钮就可以通过可视化界面,对数据进行分析和处理。

单击 Explorer 按钮,就会出现以下页面,但是由于尚未打开任何数据集,因此只有 Preprocess 选项卡是可用的。


如果利用 Weka 分析数据,首先要打开数据集文件。Weka 可以识别的文件格式有多种,包括ARFF、C4.5、CSV等。Weka 自带了多个 ARFF 格式的数据文件,用记事本打开 weather.arff 数据集,如下图所示。

文件的主要内容有三部分:

内容含义
@relation数据集的名称
@attribute定义数据集的所有属性,其后紧跟着属性名和数据类型(字符串类型和数值类型)。如果是字符串类型,则在属性名后用{a,b,……}列出所有可能的取值;如果是数值类型,则在属性名后直接写 real 或者 numeric。
@data其后每一行代表数据集的一条记录,取值之间用“,”分割,缺失值用“?”代替。

除此之外,也支持长文本类型和日期类型。

打开weather.arff数据文件,就会显示该数据集的一些信息,如下图所示:

该界面的左下角部分显示的是所有属性,如果在之后的分析过程中要去掉某些属性,可以选择响应属性的复选框,然后单击 Remove 按钮。屏幕右下角显示相应属性的类别分布图。

单击屏幕上方的 Edit 按钮,就会显示数据集的内容,如下图所示:

以上是关于Weka入门——数据文件的主要内容,如果未能解决你的问题,请参考以下文章

使用 WEKA 进行词义消歧

Weka 3: Data Mining Software in Java

WEKA 无法识别 .csv 文件中的不同属性

weka中用J48(即C4.5)算法对数据集进行训练建模与测试,结果不是很理想,

是啥导致 weka 中的 csv 加载错误?

Fiji / Weka 生成的 arff 文件中的原始属性