图神经网络多模态检索Multi-Modal Retrieval using Graph Neural Networks
Posted 专知
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了图神经网络多模态检索Multi-Modal Retrieval using Graph Neural Networks相关的知识,希望对你有一定的参考价值。
大多数真实世界的图像检索应用程序,如Adobe Stock,这是一个存储图片和插图的市场,需要一种方法让用户找到图像,这些图像在视觉上(即美学上)和概念上(即包含相同的突出对象)作为查询图像。从图像中学习视觉-语义表征是图像检索研究的一个热点问题。基于图像概念或属性的过滤通常通过基于索引的过滤(例如文本标签)或在最初的基于视觉嵌入的检索后重新排序来实现。在本文中,我们学习了一个嵌入在同一高维空间中的联合视觉和概念。这个联合模型为用户提供了对结果集语义的细粒度控制,允许他们更快速地浏览图像目录。我们将可视化和概念关系建模为图形结构,通过节点邻域捕获丰富的信息。这种图结构帮助我们使用图神经网络学习多模态节点嵌入。我们还引入了一种新的基于选择性邻域连接的推理时间控制,允许用户控制检索算法。我们对MS-COCO数据集图像检索下游相关任务进行定量评估,对MS-COCO和Adobe库存数据集进行定性评估。
https://arxiv.org/abs/2010.01666
专知便捷查看
后台回复“MMRGNN” 可以获取《【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks》专知下载链接索引
以上是关于图神经网络多模态检索Multi-Modal Retrieval using Graph Neural Networks的主要内容,如果未能解决你的问题,请参考以下文章
经典文献阅读之--Multi-modal Semantic SLAM(多模态语义SLAM)
谣言检测论文精读——11.SAFE: Similarity-Aware Multi-Modal Fake News Detection
MMEKG : Multi-modal Event Knowledge Graph towards Universal Representation across Modalities
论文笔记之:Heterogeneous Image Features Integration via Multi-Modal Semi-Supervised Learning Model