如何在 Weka 文件中指定字符串?
Posted
技术标签:
【中文标题】如何在 Weka 文件中指定字符串?【英文标题】:How to specify strings in Weka file? 【发布时间】:2014-02-04 09:24:31 【问题描述】:我正在研究文本分类系统,我想使用 unigrams 作为特征。在构建 arff 文件时,我声明了一个字符串属性字段,我想在其中指定消息中包含的所有单词,用逗号分隔。但是,Weka 告诉我它“无法处理字符串属性”。我尝试使用 StringToWordVector 在标题中定义关系,但没有帮助。不然怎么办?非常感谢!
【问题讨论】:
【参考方案1】:如果您的 arff 文件格式正确,那么下面的代码可以帮助您
// dataSource: arff file (path of your arff file)
BufferedReader trainReader = new BufferedReader(new FileReader(dataSource));
trainInsts = new Instances(trainReader);
trainInsts.setClassIndex(trainInsts.numAttributes() - 1);
// the filter is used to convert the data from string to numeric
StringToWordVector STWfilter = new StringToWordVector();
FilteredClassifier model = new FilteredClassifier();
model.setFilter(STWfilter);
STWfilter.setInputFormat(trainInsts);
// the converted data
trainInsts = Filter.useFilter(trainInsts, STWfilter);
【讨论】:
以上是关于如何在 Weka 文件中指定字符串?的主要内容,如果未能解决你的问题,请参考以下文章
如何在 NpgSql 连接字符串中指定 ApplicationName