来看看深度学习如何在文娱行业“落地”

Posted 2021-12-11 博文视点

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了来看看深度学习如何在文娱行业“落地”相关的知识，希望对你有一定的参考价值。

深度学习伴随着大数据与云计算技术的崛起而快速发展起来，并在计算机视觉、语音等感知领域迅速取得成功。相对于传统机器学习，深度学习的算法设计更加灵活，可以显著提升针对感知类问题的效果。

随着算力及分布式工程能力的进一步提升，深度学习的参数规模越来越大。可以说，参数越多，模型对知识的理解就越深刻。而深度学习模型也从传统的针对单一任务，比如文本识别、物品识别、语音识别等，向多任务处理发生转移，我们称这种一个模型可以同时处理文本识别与理解、图片识别与理解，实现跨领域联动识别与理解的能力为多模态通用AI能力。

随着深度学习技术的不断发展，越来越多的研究者开始关注AI技术在医疗健康、文娱、工业等领域中的应用和创新。而天池大赛提供了一个“云”上的练兵场，让所有对人工智能应用感兴趣的开发者都能很容易地触达业界的实际需求和场景。

下面是阿里巴巴优酷视频增强和超分辨率挑战赛的相关内容：

业界应用
图片的增强和修复算法其实早已融入我们的生活。

比如，被广泛使用的修图软件Photoshop，内部就集成了很多有关亮度、色彩的增强算法。

再比如，我们自拍用的“美颜”，本质上也是对人脸和肤色的增强。近年来，在手机圈火爆的“超级夜景”等功能，也是典型的图像增强技术。

从拍摄硬件上来说，其实我们看到的图片、视频都已经被ISP（Image Signal Processing，图像信号处理）增强过了。ISP内部会进行去噪、色彩增强、色调映射等过程，将原始的RAW格式的数据调整到人眼可见的范围。另外，相对于上层应用使用压缩后的数据，使用RAW格式的数据更容易达到好的处理效果。

因此，对于增强任务，沿着数据获取链路向上游走，走软硬结合的路子是最终的解决方案。

目前，各云平台厂家也都提供图像增强能力，可见其价值。

文娱行业面临的画质问题
一方面，近两年《开国大典》《我的祖国》等高清修复内容多次刷屏全网，使老电影焕发新生机。对于影视剧来说，画质和拍摄年代有较强的相关性，也就是说随着拍摄设备技术的提升，画质也在提高。那么，对于老片，也需要与时俱进，需要做高清修复，以满足用户对高清，甚至超高清的需求。

另一方面，随着互联网的快速发展，内容形式已经由图文转向短视频，目前短视频已成为网民碎片化娱乐的首选，而对于目前大量增加的UPGC视频的画质情况却不容乐观。

UPGC视频的来源主要包括两种：

一种是由用户上传的正片切条产生的短小视频。由于用户使用的片源清晰度无法保证，又经过多次的转码、压缩、缩放，因此导致画质下降、压缩噪声、块效应等问题；

另一种是用户拍摄上传的。虽然目前手机的相机成像质量越来越好，分辨率越来越高，甚至出现了1亿像素、30倍变焦等黑科技，但在不受控的拍摄环境中，普通用户一般无法控制拍摄质量，从而导致出现噪声、模糊、光线等问题。

实验室介绍和技术手段
摩酷实验室是由阿里巴巴达摩院和优酷联合成立的，旨在对世界级的前沿Media AI技术进行研究，驱动在全媒体领域的持续产品模式创新，进而深耕并沉淀为可规模化的生产力。依托优酷形式多样的海量视频数据，经过艰苦攻关，摩酷实验室已经沉淀出完善的全视频质量评价和增强能力。

一个典型的视频增强流程包括去噪、超分辨率、插帧、HDR等算法模块，如果原片是黑白影片，则还可以进行自动上色。对于老片修复，还有去除胶片污损、反交错等过程。

各个模块有不同的作用：超分辨率技术可以将原低分辨率视频扩展到4K；插帧算法可以提升帧率，有助于消除视频顿挫感，提升平滑度；HDR用于改善动态范围。

评估指标
对于算法恢复的视频和抽帧结果，首先采用PSNR（Peak Signal to Noise Ratio，图像的峰值信噪比）和VMAF（Video Multi-Method Assessment Fusion，视频的多方法评测融合）两种评价指标进行逐帧计算。最终的PSNR结果为完整视频和抽帧视频中所有帧的平均值，最终的VMAF结果为完整视频所有帧VMAF结果的平均值。然后对PSNR和VMAF的得分进行加权，得到竞赛得分。

▊ VMAF

VMAF是Netflix开发的一种感知视频质量评估算法，它使用机器学习算法将多种评估指标“融合”在一起，可以更好地对视频质量进行评估。

VMAF开发工具包（VDK）是一个包含VMAF算法实现的软件包，另外，其允许用户训练和测试自定义VMAF模型工具。VDK包为用户提供了许多与VMAF算法实现交互的方法。其中，其核心特征提取库是用C语言编写的，其余的脚本代码包括机器学习回归类、VMAF模型的训练和测试等，都是用Python编写的。

解题思路
如图1所示，建模基本流程分为以下三步。

图1 建模基本流程

图片插值重建，也被称为超分辨率重建，是数字图像处理的一个重要研究分支。它是指利用多帧低分辨率图像/视频，通过一定的重建算法得到高分辨率图像/视频。图片插值重建是近年来学术研究的热门，已在工业界有广泛的应用。

本赛题通过对低清分辨率视频进行分帧处理，即输入低分辨率的单帧或多帧图像，输出高分辨率的单帧或多帧图像，再合成相应的高清分辨率的视频，故此问题为典型的视频/图像超分辨率（Video/Image Super Resolution）重建问题。

本文摘自《阿里云天池大赛赛题解析——深度学习篇》一书，欢迎阅读此书了解更多关于天池大赛深度学习方面的内容。

▊《阿里云天池大赛赛题解析——深度学习篇》

天池平台著

揭开人工智能算法的神秘面纱

透析大赛专业选手的解题思路

本书聚焦深度学习算法建模及相关技术，选取医疗、视频、工业三个非常有行业代表性的赛题：瑞金医院MMC人工智能辅助构建知识图谱、阿里巴巴优酷视频增强和超分辨率挑战赛、布匹疵点智能识别，介绍赛题涉及的技术知识和选手的创新思路与模型，对赛题的解决方案从0到1层层拆解。

本书从经典行业案例出发，内容由浅入深、层层递进，既可以作为专业开发者用书，也可以作为参赛选手的实战手册。

以上是关于来看看深度学习如何在文娱行业“落地”的主要内容，如果未能解决你的问题，请参考以下文章

深度学习核心技术精讲100篇（五十四）-阿里文娱多模态视频分类算法中的特征改进

百度联合行业头部企业新发5个行业大模型，大模型产业落地路径愈发清晰

2022服贸会进行时百度吴甜：深度学习平台+大模型加速AI产业落地

如何使用 MegEngine 生态落地一个算法

基于深度学习的实时噪声抑制——深度学习落地移动端的范例