监督关键词提取 weka 或其他工具
Posted
技术标签:
【中文标题】监督关键词提取 weka 或其他工具【英文标题】:supervised keyphrase extraction weka or other tool 【发布时间】:2015-10-28 09:47:11 【问题描述】:如何使用 WEKA 通过监督方法查找关键词。
我必须学习用于提取关键词的模型,所以我有一个用于训练的语料库(每个文档都有一个包含关键词或关键词的对应文件)
我还有一个用于测试监督模型的语料库(没有关键词文件的文档),因此模型应该为每个文档输出关键词列表。
我的问题是如何将文档输入到 weka,我应该为每个文档添加吗
@attribute 文档字符串
@数据 “Docu1…………” “Docu2…………” ... .. “文档…………”
现在如何输入包含每个文档的关键短语的文件以从模型中学习?
【问题讨论】:
【参考方案1】:首先您需要选择要使用的功能:最基本的算法仅基于 tf-idf 值。 https://code.google.com/p/kea-algorithm/ 但是您也可以将此功能扩展为您的“特定任务”功能。 例如短语的第一次出现等。您可以在本文中找到一些可能的功能:http://www.aclweb.org/anthology/S/S10/S10-1040.pdf 然后,您必须选择一种机器学习算法并在您训练数据集时对其进行训练,并在您的测试集上对其进行评估。
【讨论】:
本题类似:***.com/questions/20002095/… 感谢我的理解是,在使用机器学习算法对模型进行训练后,系统将能够自动检测关键词并返回关键词列表,你知道最好的算法吗测试 您可以尝试最大熵或基于回归的分类器或贝叶斯。以上是关于监督关键词提取 weka 或其他工具的主要内容,如果未能解决你的问题,请参考以下文章