监督关键词提取 weka 或其他工具

Posted

技术标签:

【中文标题】监督关键词提取 weka 或其他工具【英文标题】:supervised keyphrase extraction weka or other tool 【发布时间】:2015-10-28 09:47:11 【问题描述】:

如何使用 WEKA 通过监督方法查找关键词。

我必须学习用于提取关键词的模型,所以我有一个用于训练的语料库(每个文档都有一个包含关键词或关键词的对应文件)

我还有一个用于测试监督模型的语料库(没有关键词文件的文档),因此模型应该为每个文档输出关键词列表。

我的问题是如何将文档输入到 weka,我应该为每个文档添加吗

@attribute 文档字符串

@数据 “Docu1…………” “Docu2…………” ... .. “文档…………”

现在如何输入包含每个文档的关键短语的文件以从模型中学习?

【问题讨论】:

【参考方案1】:

首先您需要选择要使用的功能:最基本的算法仅基于 tf-idf 值。 https://code.google.com/p/kea-algorithm/ 但是您也可以将此功能扩展为您的“特定任务”功能。 例如短语的第一次出现等。您可以在本文中找到一些可能的功能:http://www.aclweb.org/anthology/S/S10/S10-1040.pdf 然后,您必须选择一种机器学习算法并在您训练数据集时对其进行训练,并在您的测试集上对其进行评估。

【讨论】:

本题类似:***.com/questions/20002095/… 感谢我的理解是,在使用机器学习算法对模型进行训练后,系统将能够自动检测关键词并返回关键词列表,你知道最好的算法吗测试 您可以尝试最大熵或基于回归的分类器或贝叶斯。

以上是关于监督关键词提取 weka 或其他工具的主要内容,如果未能解决你的问题,请参考以下文章

实战关键词提取

广告行业中那些趣事系列60:详解超好用的无监督关键词提取算法Keybert

中文关键词提取算法

中文分词:关键词提取

关键词提取:TF-IDF和n-gram

awk怎么提取某一关键词后的内容