淘宝视频的跨模态检索

Posted 阿里巴巴淘系技术团队官网博客

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了淘宝视频的跨模态检索相关的知识,希望对你有一定的参考价值。

本系列将介绍在淘宝内容电商生态业务中,对短视频直播这类多媒体内容的识别理解工作。其中包括多媒体内容标签结构化、内容多模态融合识别、超大规模视频标签理解、跨模态语义检索、实时流媒体内容数字化、视频highlight提取及创意生产、多模态内容标签图谱建设等方面的工作成果。

本篇是淘宝视频的第三篇,前两篇可见:

淘宝短视频多模态融合识别

淘宝视频内容标签的结构化分析和管理

背景

近年来短视频应用大火,视频媒体逐渐成为用户消费的主要内容载体之一,对视频内容的精准检索成为重要的技术需求。自然文本描述和视频进行跨模态检索(Cross-Modal Text-Video Retrieval)是最符合自然人机交互的方式之一,通过描述文本语义特征和视频理解多模态特征的相关性计算,满足用户对视频内容的检索需求。本文工作针对淘宝首猜全屏页、逛逛等内容场景,采用文本-视频跨模态检索的方法,实现淘宝大规模内容标签和视频的挂靠[1,3]。

以上是关于淘宝视频的跨模态检索的主要内容,如果未能解决你的问题,请参考以下文章

智能展示技术在淘宝封面图的应用

淘宝短视频多模态融合识别

Jina 实例秀|基于CLIP模型的跨模态视频搜索

跨模态学习能力再升级,EasyNLP电商文图检索效果刷新SOTA

跨模态学习能力再升级,EasyNLP 电商文图检索效果刷新 SOTA

跨模态学习能力再升级,EasyNLP 电商文图检索效果刷新 SOTA