淘宝视频的跨模态检索

Posted 2021-09-04 阿里巴巴淘系技术团队官网博客

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了淘宝视频的跨模态检索相关的知识，希望对你有一定的参考价值。

本系列将介绍在淘宝内容电商生态业务中，对短视频直播这类多媒体内容的识别理解工作。其中包括多媒体内容标签结构化、内容多模态融合识别、超大规模视频标签理解、跨模态语义检索、实时流媒体内容数字化、视频highlight提取及创意生产、多模态内容标签图谱建设等方面的工作成果。

本篇是淘宝视频的第三篇，前两篇可见：

淘宝短视频多模态融合识别

淘宝视频内容标签的结构化分析和管理

背景

近年来短视频应用大火，视频媒体逐渐成为用户消费的主要内容载体之一，对视频内容的精准检索成为重要的技术需求。自然文本描述和视频进行跨模态检索（Cross-Modal Text-Video Retrieval）是最符合自然人机交互的方式之一，通过描述文本语义特征和视频理解多模态特征的相关性计算，满足用户对视频内容的检索需求。本文工作针对淘宝首猜全屏页、逛逛等内容场景，采用文本-视频跨模态检索的方法，实现淘宝大规模内容标签和视频的挂靠[1,3]。

以上是关于淘宝视频的跨模态检索的主要内容，如果未能解决你的问题，请参考以下文章

智能展示技术在淘宝封面图的应用

淘宝短视频多模态融合识别

Jina 实例秀｜基于CLIP模型的跨模态视频搜索

跨模态学习能力再升级，EasyNLP电商文图检索效果刷新SOTA

跨模态学习能力再升级，EasyNLP 电商文图检索效果刷新 SOTA