将网页转换为 ARFF 文件以进行 Weka 分类
Posted
技术标签:
【中文标题】将网页转换为 ARFF 文件以进行 Weka 分类【英文标题】:Convert Web page to ARFF File for Weka classification 【发布时间】:2013-11-01 13:36:06 【问题描述】:我想使用 weka 对 10 个网页进行分类。 如何将网页转换为 Weka 的 ARFF 文件格式? 我是否需要将所有 10 页转换为一个 ARFF 文件或 我是否需要为每个网页转换 ARFF 文件,即 10 个 ARFF 文件。
【问题讨论】:
也许您应该指定要从网页中提取的信息类型。全文?该页面上的数字列表?等等。如果您想比较每一页的信息,您可能会将它们统一在一个 ARFF 文件中。 我想使用分类器对基于词袋模型的网页进行分类。 【参考方案1】:假设您想保留 html 格式,这相对容易。只需将您的 HTML 文件放在单独的文件夹/目录中(每个目录一个类),然后应用 TextDirectoryLoader
转换器,如 Text categorization with WEKA 教程中所述。
假设例如你有两个类,你应该做(并通过这个过程得到)是一个 ARFF 文件,每个文件一个实例,每个文件的文本到一个文本属性的单个字段(属性值),以及类(目录名称)。然后您可以跟进 StringToWordVector 过滤器将文档转换为词向量并进行分类。
【讨论】:
@Jose Maria Gomez Hidalg 我们如何为路透社数据集生成 XML 格式的 arff 文件? 如果你的意思是一个包含所有文章的 XML 格式的单个文件(这是集合的原始格式,我在我的论文中使用过),你必须编写一个翻译器,例如,只保留每篇文章的文本,并将其添加到其类别对应的目录中。 我想这是一个不同的问题,请为社区的利益打开一个新的帖子。以上是关于将网页转换为 ARFF 文件以进行 Weka 分类的主要内容,如果未能解决你的问题,请参考以下文章