音视频技术开发周刊 | 238
Posted LiveVideoStack_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了音视频技术开发周刊 | 238相关的知识,希望对你有一定的参考价值。
每周一期,纵览音视频技术领域的干货。
新闻投稿:contribute@livevideostack.com。
整个世界都是你的绿幕:这个视频抠图换背景的方法着实真假难辨
绿幕是影视剧中抠图、换背景的利器,但如果不在绿幕前拍摄,我们还能完美地转换背景吗?华盛顿大学的研究者最近就上传了这样一份论文,不在绿幕前拍摄也能完美转换视频背景,让整个世界都变成你的绿幕。
使用边缘计算来增强流传输
本次演讲将深入探讨跨多个供应商使用边缘计算平台的细节,以通过即时和全球可扩展的方法为现有媒体流实施新功能。
我们如何建立一套无参考视频质量评价体系?
在实时互动无处不在的今天,视频质量是反映终端用户体验的重要指标。单纯依赖人工实施大规模的实时评估是不现实的,因此视频质量自动化评估体系的搭建与推广是大势所趋。
H264 视频文件如何缩放分辨率?
前几天在知识星球里面有位朋友请教问题:如何将 H264 视频缩放分辨率?将 800x600 的 H264 文件缩放成 400x300 的,大概的流程是先解码,得到 AVFrame 后对其做缩放操作,然后再编码,得到 AVPacket 后写入文件即可。
音频信号的盲源分离最初是为解决“鸡尾酒会问题”发展起来,它在人机语音交互、自动会议纪要、人声和配乐分离等方面有潜在的重要应用价值。
本系列主要介绍视频编解码芯片的设计,以HEVC视频编码标准为基础,简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。
iOS AVDemo(5):音频解码,免费获得源码丨音视频工程示例
现在,开源软件界或即将到达必须变革的临界点:被大厂白嫖的既有模式不可持续,开源码农必须得到相应尊重和报偿。
龙芯FFmpeg进入5.0时代,全力支持LoongArch生态
2022年1月,FFmpeg社区正式对外发布FFmpeg 5.0版本,新版本集成了对LoongArch的生态支持和优化。本文就龙芯中科FFmpeg 5.0版本工作及规划进行系统介绍。
FFmpeg 中 AVPacket 与 AVFrame 中数据的传递与释放
FFmpeg是一款开源软件,用于生成处理多媒体数据的各类库和程序。FFmpeg可以转码、处理视频和图片(调整视频、图片大小,去噪等)、打包、传输及播放视频。
FFmpeg 源码分析-转码5
本系列 以 FFmpeg4.2 源码为准,FFmpeg 源码分析系列以一条简单的命令开始,ffmpeg -i a.mp4 b.flv,分析其内部逻辑。本文主要分析 process_input_packet() 的内部逻辑。
https://juejin.cn/post/7052338639715434526
本文是 Engineering Semester 的 WebRTC 教程第一部分,主要介绍了 WebRTC 是什么,其和 Websocket 的异同,WebRTC 信令,架构和 API 入门。
计算机视觉的深度学习应用往往需要大量的图像数据集,现在我告诉你,只有一张图像也可以训练,是不是非常神奇?
AI靠语意理解把照片变抽象画,无需相应数据集,只画4笔也保留神韵,有毕加索内味儿了
只用几笔,如何勾勒一只动物的简笔画,很多人从小都没整明白的问题——,如今AI也能实现了。其实AI画抽象简笔画比人更难。既要准确地理解语义,又要在几何上相似,才能让抽象画看起来有“像”的感觉。
CVPR 2022 | 惊呆了!只用一张图+相机走位,AI就能脑补周围环境!
让AI根据一个画面,就推测出后面的内容,这个感觉是不是和让AI写文章有点类似?实际上,研究人员这次用到的正是NLP领域常用的Transformer。
自打用过AR驾车导航/AR步行导航,很多小伙伴直呼黑科技真香!今天小德带大伙儿一块拆解AR导航,看看这款黑科技背后的秘密~
本文简单带大家看一下单图像三维重建相关的论文。写这篇文章算是对之前的一点总结。在开始讨论之前先说一下为什么要做单图像三维重建,原因其实很直观。总结起来就是两个字,“需要”。
从4K到16K仅用一张图像训练,首个单样本超高分辨率图像合成框架来了
在这篇论文中,研究者提出了 OUR-GAN,这是首个单样本(one-shot)超高分辨率(UHR)图像合成框架,能够从单个训练图像生成具有 4K 甚至更高分辨率的非重复图像。
自动驾驶汽车如何解决复杂交互问题?清华联合MIT提出M2I方案
来自清华、MIT的研究团队提出了一种基于自监督学习的方法,让自动驾驶模型从已有的轨迹预测数据集中学会正确判断冲突中的礼让关系。
自动驾驶是一种自主决策系统,它处理来自不同车载来源的观测流,如照相机、雷达、激光雷达、超声波传感器、GPS装置和/或惯性传感器。这些观察结果被汽车的计算机用来做驾驶决定。
由于深度学习系统的行为缺乏可解释性,测试基于深度学习的自动驾驶系统的安全性极具挑战性。针对基于视觉感知的自动驾驶系统,设计开发了一种场景驱动的、可解释强的、运行高效的安全性测试系统。
阅读推荐
3月18日,资本市场传来一则重磅消息:钉钉已完成对音视频平台服务公司拍乐云的全资收购,拍乐云核心团队整体加入钉钉,创始人赵加雨还将担任钉钉音视频事业部一号位。
对话美摄科技侯康:提升技术,拓展场景 美摄智能汽车视频处理方案已就位
音视频行业的机会在哪里?也许本文能提供一些视角和思路。本文由LiveVideoStack与腾讯云副总裁李郁韬的对话整理而成,在不影响原意的前提下部分内容有所删改。
本篇文章不会去过多地讨论现在围绕元宇宙的诸多活动(科技巨头想要通过它们来占有我们更多的数据、金钱以及精神世界)。但我们也必须承认:下一代互联网框架之战已经开始了。
活动推荐
【公开课预告】:爱奇艺DRM探索之路
随着当下版权意识的提升,行业内对版权保护的重视程度越来越高。自从2016年加入ChinaDRM后,爱奇艺一直积极推动DRM标准的实施,并且不断探索版权保护技术的创新开发。3月29日晚七点半,我们邀请到了爱奇艺资深研发工程师 刘姗,将详细介绍DRM技术发展现状,DRM主要技术组成,以及爱奇艺的版权保护相关技术应用现状。
活动时间:2022年3月29日 19:30
活动形式:线上直播
报名地址:点击「阅读原文」立即报名。
以上是关于音视频技术开发周刊 | 238的主要内容,如果未能解决你的问题,请参考以下文章