论文泛读172Active Query K-Means在文本分类中的应用
Posted 及时行樂_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读172Active Query K-Means在文本分类中的应用相关的知识,希望对你有一定的参考价值。
贴一下汇总贴:论文阅读记录
论文链接:《The Application of Active Query K-Means in Text Classification》
一、摘要
主动学习是一种最先进的机器学习方法,用于处理大量未标记的数据。在自然语言处理领域,对所有数据进行注释通常既昂贵又耗时。这种低效率激发了我们在文本分类中应用主动学习的灵感。在本研究中,传统的无监督 k-means 聚类首先被修改为半监督版本。然后,应用一种新颖的尝试将算法进一步扩展到具有 Penalized Min-Max-selection 的主动学习场景中,以便进行有限的查询,从而产生更稳定的初始质心。该方法利用来自用户的交互式查询结果和底层距离表示。在中文新闻数据集上进行测试后,它显示出在降低训练成本的同时准确率持续提高。
二、结论
本研究在主动K-m聚类算法中引入了一种新的主动查询策略——惩罚最小选择。作为纯基于距离的最小最大选择和其他基于标签的主动学习策略的改进,这种查询策略试图同时挖掘查询标签和距离表示。实验结果表明,在允许10%查询的情况下,新策略比基于随机种子的K-m算法高出6%;并且准确度曲线的曲率表明,如果允许更高的查询比率,则可以获得更高的准确度。在未来的研究中,该算法应该在更大和更平衡的数据集上进行实验,以测试其鲁棒性和完全强度。
三、model
算法:
以上是关于论文泛读172Active Query K-Means在文本分类中的应用的主要内容,如果未能解决你的问题,请参考以下文章