使用学习对文本文档进行排名？

Posted 2023-03-12

技术标签:

【中文标题】使用学习对文本文档进行排名？【英文标题】：Using Learning To Rank on textual documents? 【发布时间】：2019-10-20 10:56:00 【问题描述】：

我需要一些帮助来实施学习排名 (LTR)。它与我的学期项目有关，我对此完全陌生。详细情况如下：我收集了大约 90 个文档并填充了 10 个用户查询。现在我必须使用 LambdaMart、AdaRank 和 Coordinate Ascent 三种算法，根据每个查询对这些文档进行排名。以前我在向量空间模型上应用了聚类技术，但这很容易。但是在这种情况下，我不知道如何根据这些算法更改数据。因为我在单独的文件中有 txt 格式的文本数据（文档和查询）。我在网上搜索了解决方案，但找不到合适的解决方案，所以这里的任何人都可以指导我正确的方向，即步骤。我真的很感激。

【问题讨论】：

【参考方案1】：

正如您所说，您已经在向量空间模型中应用了聚类。这些算法的输入也是向量。您为什么不看一下为学习排名问题（Letor benchmark）而引入的标准数据集，其中文档以特征向量显示？在java（RankLib）中也提供了这些算法的实现，这可能会给你解决问题的想法。希望对你有所帮助！

【讨论】：

感谢您的回复。我研究了你提到的那篇论文并研究了数据集。但是，没有关于他们如何构建实际数据集的信息。数据集仅包含数值和其中的查询引用。就我而言，我有文档和 VSM（逐个文档矩阵）。我仍在努力将其变成 Ohsumsd 数据集之类的东西。

以上是关于使用学习对文本文档进行排名？的主要内容，如果未能解决你的问题，请参考以下文章

如何使用 SVM 和 KNN 对文本文档进行分类

在 Python 中使用 h2o4gpu K-Means 对文本文档进行聚类

如何对法律领域的文本文档进行分类

加载文本文档并根据重复单词的数量对它们进行排名的 Java 程序 - 不断获取文件未找到错误

从文本文档图像中提取文本检测特征

最佳文本文档分类算法 [关闭]