如何在 Weka 文件中指定字符串?

Posted

技术标签:

【中文标题】如何在 Weka 文件中指定字符串?【英文标题】:How to specify strings in Weka file? 【发布时间】:2014-02-04 09:24:31 【问题描述】:

我正在研究文本分类系统,我想使用 unigrams 作为特征。在构建 arff 文件时,我声明了一个字符串属性字段,我想在其中指定消息中包含的所有单词,用逗号分隔。但是,Weka 告诉我它“无法处理字符串属性”。我尝试使用 StringToWordVector 在标题中定义关系,但没有帮助。不然怎么办?非常感谢!

【问题讨论】:

【参考方案1】:

如果您的 arff 文件格式正确,那么下面的代码可以帮助您

 // dataSource: arff file (path of your arff file)

        BufferedReader trainReader = new BufferedReader(new FileReader(dataSource)); 
                       trainInsts = new Instances(trainReader); 
                       trainInsts.setClassIndex(trainInsts.numAttributes() - 1); 


        // the filter is used to convert the data from string to numeric 

                              StringToWordVector STWfilter = new StringToWordVector(); 
                              FilteredClassifier model = new FilteredClassifier(); 
                              model.setFilter(STWfilter); 

                           STWfilter.setInputFormat(trainInsts);  
// the converted data 
                           trainInsts = Filter.useFilter(trainInsts, STWfilter);

【讨论】:

以上是关于如何在 Weka 文件中指定字符串?的主要内容,如果未能解决你的问题,请参考以下文章

python如何读取txt文件中指定内容?

如何在 API 项目中指定实体框架连接字符串

如何在 NpgSql 连接字符串中指定 ApplicationName

如何在自定义数字格式字符串中指定缩小 100?

如何在 Cloudformation 中指定 JSON 格式的字符串?

c语言:如何将字符串中指定的字符替换为另一个指定字符