使用学习对文本文档进行排名?

Posted

技术标签:

【中文标题】使用学习对文本文档进行排名?【英文标题】:Using Learning To Rank on textual documents? 【发布时间】:2019-10-20 10:56:00 【问题描述】:

我需要一些帮助来实施学习排名 (LTR)。它与我的学期项目有关,我对此完全陌生。详细情况如下: 我收集了大约 90 个文档并填充了 10 个用户查询。现在我必须使用 LambdaMart、AdaRank 和 Coordinate Ascent 三种算法,根据每个查询对这些文档进行排名。以前我在向量空间模型上应用了聚类技术,但这很容易。但是在这种情况下,我不知道如何根据这些算法更改数据。因为我在单独的文件中有 txt 格式的文本数据(文档和查询)。我在网上搜索了解决方案,但找不到合适的解决方案,所以这里的任何人都可以指导我正确的方向,即步骤。我真的很感激。

【问题讨论】:

【参考方案1】:

正如您所说,您已经在向量空间模型中应用了聚类。这些算法的输入也是向量。 您为什么不看一下为学习排名问题(Letor benchmark)而引入的标准数据集,其中文档以特征向量显示? 在java(RankLib)中也提供了这些算法的实现,这可能会给你解决问题的想法。希望对你有所帮助!

【讨论】:

感谢您的回复。我研究了你提到的那篇论文并研究了数据集。但是,没有关于他们如何构建实际数据集的信息。数据集仅包含数值和其中的查询引用。就我而言,我有文档和 VSM(逐个文档矩阵)。我仍在努力将其变成 Ohsumsd 数据集之类的东西。

以上是关于使用学习对文本文档进行排名?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 SVM 和 KNN 对文本文档进行分类

在 Python 中使用 h2o4gpu K-Means 对文本文档进行聚类

如何对法律领域的文本文档进行分类

加载文本文档并根据重复单词的数量对它们进行排名的 Java 程序 - 不断获取文件未找到错误

从文本文档图像中提取文本检测特征

最佳文本文档分类算法 [关闭]