后疫情时代,RTC期待新的场景大爆发
Posted AI科技大本营
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了后疫情时代,RTC期待新的场景大爆发相关的知识,希望对你有一定的参考价值。
整理 | 寇雪芹
头图 | 下载于ICphoto
出品 | AI 科技大本营(ID:rgznai100)
过去的一年中,新冠疫情悄然改变了社会发展和人们的生活,也助推了实时音视频(Real-Time Communication)技术的落地应用,数不清的上班族开始了远程办公,学生们纷纷加入网课大军。事实上,RTC 技术虽然已经问世多年,却依然属于高速发展中的年轻产业,其应用领域远比普通人接触和想象中的广泛。
后疫情时代,“无接触”式生活或许会继续被提倡,我们也从中看到了 RTC 在未来生活中的各种可能性。伴随着 5G 网络、AI 技术、物联网以及低代码等新技术的共同发展,RTC 会有哪些新奇的应用场景,新的交互方式会给社交带来哪些改变?
大咖一一为你解答!
由 CSDN 重磅打造的高端对话栏目「大咖来了」,第十三期《后疫情风暴中的 RTC》邀请到融云 CTO 任杰、即构科技副总裁刘莉、CSDN 副总裁于邦旭,多方位视角共同讨论实时音视频技术面临的挑战和发展路径,以及开发者有哪些值得把握的机会。
精彩视频抢先看:
以下是对话实录,有删减:
RTC 技术仍在持续、高速演进
Q : 2021 年初,W3C(万维网联盟)和 IETF(互联网工程任务组)宣布 WebRTC 成为官方标准,RTC 技术是否已经趋于成熟?
任 杰:RTC 技术有很多纵深领域,包括声学处理、视觉处理、网络传输体系等,其中的声音编解码、视频编码、网络对抗技术都还在不断演进。另外,RTC 技术应用于各个领域时,这些领域对带宽、帧率的要求也不一样。
当技术在不同领域被应用的越来越多时,技术本身也会不断突破。所以,对于 RTC 来说无论是底层技术还是场景应用,都在持续、高速地演进过程中,目前还不是一个成熟的阶段。
刘 莉:首先,WebRTC 成为 WEB 平台的标准说明了它的规范性、兼容性以及技术生态的活力,所以 RTC 不是稳定成熟,而是被激发了活力。
第二,标准不等同于解决方案,RTC 是一张基于互联网的第二平面,这张平面的构造方法,以及与之相关的编解码技术、传输技术,还有很大的发展空间。
第三,标准也不等同于技术本身,比如 H.265 意味着框架,但即便在框架中仍然大有可为。H.265 技术在边框编码、量化、搜索、熵编码等层面,都有针对不同场景的技术创新。
我们应该积极拥抱和兼容标准,同时,也鼓励广大开发者在传输协议的应用层,在引擎和传输的相关技术上,做更适配场景的能力创新、敏捷度创新。
于邦旭:其实早在七八年前就出现了 RTC 直播服务,与之相关的技术也一直在演进。
随着时间推移,国际组织把 WebRTC 定义为标准,未来 RTC 还可能从一种能力变成基础设施。在 IoT 的大面积应用中,设备与设备、设备与人、人与人、设备与外部世界之间的连接越来越多,需要 RTC 的场景也会越来越多,这也是 RTC 云厂商看重这项能力的原因。
当一项有着巨大市场机会的新技术诞生的时候,作为开发者,我们要思考是否去学习这项技术?在 CSDN,与 RTC 相关的文章超过了 80 多万篇,从数字看,RTC 已经从一个曾经很窄的领域、很寂寞的行业,变成一个蓬勃发展的行业。未来,当它变成基础设施时,会需要大量开发者。
玩转 RTC,还需应对多维度挑战
Q:各位如何理解 RTC 的发展历程?在技术研发生涯中有没有踩过哪些坑?
任 杰:以前,RTC 技术的商业场景主要集中在音视频会议,而我们现在谈的 RTC 更多集中在互联网。
RTC 真正进入互联网领域后,技术上面临的挑战主要来自于设备。过去的视频会议是在专有设备和专有网络下进行的,而互联网 RTC 用的是手机、电脑。而电脑并不是为通信设计的,声音的处理、视频的处理都涉及到大量算法的重新适配和开发。手机虽然是为通讯设计的通用设备,但是依然面临分散、设备差异等问题。
另外,互联网在可靠性、稳定性上与专有网络相比也有明显的差距。在网络传输、网络对抗,以及如何在不可靠的网络上提供更稳定的质量,都是比较大的挑战。
融云 CTO 任杰
刘 莉:完整的 RTC 演进历史超过 20 年,在特定的阶段,大家认为掌握了编解码技术、有了信息高速公路,音视频的发展是非常简单,甚至用开源搭建就能完美实现的产品。事实上,我们这么多年来趟过的坑,不因为我们趟过了,广大的开发者就不会再面临。
互联网其实是一个不可靠的、复杂的传输网络,因此一定要构建基于互联网的第二平面,做最优路径、智能路由,以及在最后一公里分布的节点上部署相应算法和工程能力。
面对具体的应用时,客户和需求都是分层的,他们或者时延敏感,或者丢包敏感,这时就需要构建基于应用层的低包时延抖动的策略引擎。
实现基本的可用性以后,用户并不满足于能听到声音、能看到图像,还需要高保真的还原,这时候就一定要做基于内容的编解码以及编解码相关的分层传输技术。
把用户体验侧做到极致时,构建网络的成本和运营的成本又成了新问题,这时候要去做基于推拉流单流管理的、自定义的基于成本加权的管理策略。
未来,面向不同的行业、面向不同的场景,一定还会有更多的技术难题。
于邦旭:CSDN 搭建直播系统其实只需要拥有 RTC 能力,那 CSDN 遇到的核心难题什么?是为了平衡成本和质量选择开源产品,过程中又不得不参与 WebRTC 领域的开发。
当我们没有使用商业 RTC,也没有专业 RTC 团队时,使用的是开源版本的 RTC。开源 RTC 虽然没有很好的售后服务,但是优点也很明显:我们不需要涉足 RTC 研发,可以直接部署 RTC 服务,用云平台或者大型云厂商 BGP 网络,也不需要参与智能调度,可以直接使用云厂商的 serviceAuto。
过程中,当我们对 RTC 质量的要求超出了开源产品本身可以提供的能力时,就不能只停留在直播应用工程上,而是要去研究 RTC 的协议问题、算法问题,寻找更好的开源产品再进行集成。
跟大家揭秘一下,为什么我们早期没选择商业化的云厂商?原因在于去年一场 RTC 的直播费用依然是比较高的,这也是厂商们未来要解决的问题。
5G、AI、低代码,如何与 RTC 融合?
任 杰:低代码已经大规模应用于企业的 OA、ERP、CRM 等信息化系统中,所以企业的业务变化也会带来系统级变化、需求变化。低代码的目标是让业务部门的人,直接借助开发技术通过配置和流程重新规划,就能重构相应的系统。
RTC 与低代码的理念相同,融云除了提供丰富的功能和能力,也要降低开发者的集成成本。现在,我们尽力让每一个场景项目 SDK 的封装程度更高,封装更好、越聚焦,开发人员在调用核心能力时的代码调用量就越少,直到从少量代码走向零代码。
新技术在 RTC 里的应用可以分为几类:
一是用 AI 技术改善 RTC 质量和体验。比如智能降噪,区分动态场景和静态场景,区分之后再采用不同帧率、不同分辨率的策略,或者利用 AI 技术接入新的带宽估计算法、模型和超分。
RTC 与 5G 结合时,5G 的高带宽、低延时特征有益于更清晰、还原度更高的音视频传输。另外,低延时可以让 RTC 技术与 AI 结合,在服务端、在边缘计算的节点上处理音视频,把设备的运算能力迁移到云上。
刘 莉:跟 AI 相关的技术中,除了超分辨率、泛娱乐美颜特效,我们最关注的是自由视角视频。在一个场馆中架设 40 多个机位的摄像头,把音视频流上传到节点,通过内容编排,到边缘节点做 3D 渲染重构。把这种技术应用到演唱会、体育赛事中,观众可以用自由设定观看角度,甚至能够滑动、旋转,这是一种很好的 AI 体验。
其实,AI 体验在 RTC 中的最大瓶颈是性能和效果的平衡,AI 推算的算法对算力要求比较高,而 toC 的端侧主要是移动端,容易产生卡顿,所以算法还有大量优化空间。
谈到 5G 与 RTC,我们关注 5G 切分技术带来编解码层、传输层的分包和多路径处理。怎样利用好 5G 的边缘计算能力,减少推送到最后一公里用户手上的时间,也是系统化的工作。
在低代码方向上,即构也很早就推出了相应的低代码 RTC 产品。我们的 RoomKit 提供了只需 15 分钟就可以搭建一个线上课堂的能力,这个方向上我们还在继续提供更丰富的功能,力争让低代码产品可以服务更多的场景以及朝着零码接入的方向努力。
即构科技副总裁 刘莉
于邦旭:如果 RTC 成为一种基础设施,它留给我们的想象空间会非常大。我个人觉得这类技术未来最大的应用领域在 IoT。在万物互联场景中,人与人、人与设备、设备与设备、设备与任何东西都可能用到类似于 RTC 的技术。
谁是下一个被 RTC 改变的行业?
Q:下一个将被实时音视频引爆或改变的行业会是什么?比如在线教育、在线医疗、语音社交模式、行政服务、还是金融?
任 杰:疫情确实加速了 RTC 落地,也创造出了许多新场景。在使用过程中大家发现,不论是线上完成的 K12 教育、音乐美术等素质教育,甚至体育课、健身课,目前的技术已经可以满足基本要求。但是怎么让线上体验更好,甚至实现和线下相同的效果,还需要技术的持续提升。
再比如教育中的考试,起初大家担心线上考试会对监考不利。但是通过机位设置、监考录像,大部分不是十分严格的考试也可以在线上完成。曾经我们认为不能在线上完成的很多事情,在线上却很方便。这种体验告诉我们,未来还有更多值得开发的场景。
Clubhouse 的爆火说明,在泛娱乐和社交场景中实时音视频确实是一种新的交互方式。新的交互方式一定还有更多新的方式亟待挖掘,比如 3D 虚拟形象的语音社交,小朋友可以在虚拟空间完成“跳格子”,这些新玩法会是未来比较主要的场景。
远程服务也是和 RTC 结合紧密的领域,比如虚拟客服、语音合成、虚拟形象合成等都在应用中不断走向成熟。谈到长远发展,RTC 和 5G、AI 以及车联网的结合,都值得投入。
刘 莉:RTC 在产业中的应用场景一定要和业务流贴近。比如金融行业中远程业务办理,证券开户、银行开户、远程面签甚至是保险理赔等,都是在具体产业场景衍生出的新技术。
不仅如此,音视频的传输、存储还要面向具体场景做技术的变革。比如金融面签与娱乐 RTC 最大的不同是可连接性,娱乐中的掉线可以用多种办法重新进入,但是金融行业的合规性要求会让技术发生很大转变,如果录像中间的卡顿时间超过 1 秒钟,其合规性就不再符合标准了。
再比如,很多用录像、录影作出的理财产品风险提示,都需要在 RTC 系统中变换呈现形式,变成某个独立的中台组件。所以,RTC 逐渐在具体场景中演进,因此有了业务中台和数据中台的概念,也在使中间能力插件化。
细心的开发者会发现,我们国家最近在修正《民办教育促进法》,在大力鼓励和促成仿真教学和线上线下融合的教学方式,包括考试类或者研究生面试。这意味着 RTC 在这种场景中正在产生更多的新技术,比如怎样在一个海量并发的应用场景中快速答题,同时保证消息不丢失。娱乐领域或许能够容忍一定消息丢失,但在考试答题中不可以。这一场景有着特殊的严肃性、合规性和社会影响性,这意味着传输技术、编解码技术以及基于对内容审核、内容识别的安全要求要从 99.99%提升到 99.9999%。
企业通讯也不再是传统的会议形式,而是和业务场景相结合,嵌入到 OA 流、CRM 流之中,实现“业务场景+能力”,从工具能力到场景创新。
如果 RTC 要渗透到某些行业,我们不能作为技术侧高高在上。任何创新都是自内而外的,产业应用在我们提到的行业都有大的爆发空间,但是我们要做的是什么?面向市场创新的业务流、面向客户交易的业务流、面向问题解决的业务流,RTC 基于这些场景一定有大的技术突破和适配具体场景的能力。
CSDN 副总裁于邦旭
于邦旭:我谈一个非常看好的场景——云游戏。云游戏和消费者的距离很近,这可能是RTC未来商业前景最好的领域。
游戏中要用到的显卡、内存、硬盘最近都面临紧缺,而追求体验感的大型游戏、VR 游戏、3D 类场景,都对电脑有比较高的要求。云诞生以后,随着 5G 的发展,随着下一代基础网络的建设,我们可以实现万兆网络到桌面。有了足够良好的网络条件,用本地显卡渲染 4K 或者 8K 的效果,其他的交互都可以通过 RTC 完成。这种情况下,可以通过云显卡的出色能力实现“开箱即用、按需付费”,高效可靠高质量视频传输,加上低延时的交互,云游戏产业一定会发生变化。
开发者的机会在哪里?
任 杰:我们先要关注大场景的爆发,这些新场景增加了我们的机会。强互动的直播会是未来一种主要的场景,现在这种直播的基础好、形式多、用户接受程度高,已经有了连麦或者更强互动的方式。比如,拍卖本来是一个强互动的线下过程,但是很多拍卖已经可以在线上完成了。
另外,新的互动方式诞生新的社交机会,社交是一个有意思的命题,每一次技术变化都会带来社交层面的变化,从过去的论坛、社区,到 Facebook 这种形式的朋友圈、feed 流的社交,现在有了交互性更强、更直观的技术形态,所以社交领域一定会有新产品、新业务形态出现。抖音、快手这类短视频类社交平台就是明显的例子,以后还会有更多形式的强互动社交产品出现。
行业类的应用会更多,RTC 目前在庭审、民航中已经有了应用,企业、行业、开发者都有机会从中获益。
刘 莉:RTC 的机会分两层,一是面向开发者的机会。实际上,RTC 是一个系统工程技术栈,它是超大并发、分布式集群架构式技术最佳实验场合,也是网络协议、编解码技术、组网传输、相关算法的最佳实验场合。
可以聊聊业务场景层面,线上 K 歌听起来比较简单,但其实是互动性极高的场景。普通交流时,200 毫秒时延的互动感宛如面对面,而线上合唱时的合声和主唱声音对齐,超过 70 毫秒的时延就会感到听觉的极度不舒适,也因此失去了娱乐性。所以也希望做音视频和传输的朋友多看看这块场景,就泛娱乐来说,它应该是不久的将来会爆发的场景。
第二,我们讲产业互联网,其实一直在关注消费端,而生产端目前还没有被赋能,也没有发生流程变革,生产线上智能制造音视频以及内容相关处理也是 RTC 未来较大的增长空间。
于邦旭:我想和大家分享一个关于开发者成长的问题。开发者关心什么呢?TOP 级开发者关注行业和产业,99%的开发者关注的是自己的影响力和收入。
已经身在 RTC 领域的同学应该利用行业发展的机会把自己的知识拓宽到某个行业,找一个场景深入研究,解决这个领域里最难的问题。无论是国内还是国外,有很多场景需要大量工程师去突破,全身心的投入到某个领域的钻研,成为这个领域的顶尖人物,这是非常令人兴奋的事情。
而对于尚未接触 RTC 的开发者或者刚毕业的学生来说,这是一个门槛比较高的领域,需要积累一定的工程能力、算法能力,还要熟知网络、音视频中的各种算法、格式等等。如果这类同学希望把 RTC 当作未来的研究方向,建议你们现在好好学习基础的知识,慢慢的把网络编程和应用技术基本功学扎实。
Q:RTC 在 AR/VR 的前景如何?
刘 莉:作为 RTC 从业者,我们会思考 AR/VR 技术怎样应用于 RTC 的特定场景。
实际上从泛娱乐来说,从最基础的美妆、美颜、海报功能,到通信的换背景、商务整体环境的构建,都离不开类似的技术。在特定空间中真实展现人的生活、社交以及人与人之间的连接,都需要与实时音视频相关的技术。这类应用的产业化已经近在眼前,在泛娱乐场景中,比如赛事、演唱会、游戏的直接应用是很强的诉求驱动,产业中也有大气监测、山林火灾监测等场景,需要底层的技术支持。
以上是关于后疫情时代,RTC期待新的场景大爆发的主要内容,如果未能解决你的问题,请参考以下文章