image Caption

Posted 芜湖之肌肉金轮

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了image Caption相关的知识,希望对你有一定的参考价值。

**

imageCaptionSurvey

学习之余,翻译下感兴趣的论文,如有错误请指正(持续更新)

**
原文:https://arxiv.org/pdf/2107.06912.pdf
作者:Matteo Stefanini, Marcella Cornia, Lorenzo Baraldi, Silvia Cascianelli,
Giuseppe Fiameni, and Rita Cucchiara

旨在学术交流,不得用作商务用途。

Abstract

视觉和语言的联系在智能生成中扮演者至关重要的角色,因此,很多研究都揉入到了iamge caption上面换句话说,我们描述一个图片用按照基本的语法和语义的有意义的句子去描述图片。从2015年开始,以上工作都是通过可视化编码图片之后,使用于文本生成的语言模型来完成的,在这些年,这两个模快都通过对于利用the exploitation of object regions, attributes,,引入多模型链接,全注意和类BERT的早期融合,的方式得到了提升,但是,除开这些令人难以忘记的结果,image caption 还并没有给出一个令人满意的结果。这项工作旨在提供image caption全面的描述方法,从视觉编码上,到训练策略,数据集和评价指标也就是test。在这方面,我们大量的比较了很多有关的先进的方法,以确定在一个架构和训练方法中达到比较好的创新,此外我们还讨论了很多该问题的变体和一些悬而未决的挑战。我们最后的目标在这方面是提供以一个工具却理解现存的文学并且高亮计算机视觉和自然语言处理的未来方向

INTRODUCTION

image caption 是一个借助视觉编码器,和相应语言模型,生成具有语义和语法的句子去描述图片内容的任务。神经科学再最近的几年,才清晰的描述了人类视觉和语言之间的联系,相似的在人工智能领域
,关于描述图片,和生成语言的架构设计也是近几年才有的事。这些研究所努力的方向就是想找到一种效果最好的编码通道去描述输入的图片,处理的编码可以概括其内容,并且在保证句子通顺的前提下,让图片和句子产生联系。在他们的标准架构中,image caption 是一个图到语言序列的问题,同时他的输入是像素。他们在编码的步骤当中,会编码一个或者多个特征向量,也就是为生成(解码(也可以叫语言模型))步骤做铺垫。这样子就产生了一个根据词汇表的需要解码的单词序列

在这些年,研究界也对模型进行了很大的改动,从第一个基于深度学习的递归神经网络席卷了全球的图片描述,到现在模型已经用注意力机制,强化学习进行浓缩,再到后面就是基于transformer和基于自我关注的类bert方法的突破。在同一时间,计算机视觉和自然语言处理的联系,使得如何把人们所给的东西和输出的结果之间建立适当的评估条件和指标的问题得以解决。此外一些特定的任务环境,和其他类似形式的任务也已经被研究了,但是取得的结果依旧离答案很远,为了让这几年的captioning研究得到证明,在鼓励新想法的前提下,本文会针对前几年的模型进行概述

以上是关于image Caption的主要内容,如果未能解决你的问题,请参考以下文章

GBDT模型介绍

CSS难题:background-image和border-image同时使用时,background-image会被border-image盖住,怎么解决

docker image 备份

WPF中获取image图片

MIME 类型“image/jpg”是不是与“image/jpeg”相同?

PS 滤镜算法原理——碎片效果