音视频技术开发周刊 | 242
Posted LiveVideoStack_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了音视频技术开发周刊 | 242相关的知识,希望对你有一定的参考价值。
每周一期,纵览音视频技术领域的干货。
新闻投稿:contribute@livevideostack.com。
✦
一周简讯
✦
W3C发布WebAssembly 2.0首个公开工作草案
WebAssembly 工作组这次共发布了三个第一个公开工作草案,包括:WebAssembly Core Specification 2.0版,描述了2.0版本的WebAssembly核心标准,是一种安全的、可移植的、为高效执行和紧凑表示而设计的低级代码格式;WebAssembly javascript Interface 2.0 版,提供了一个明确的JavaScript API,用于与WebAssembly进行交互;WebAssembly Web API 2.0 版,描述了WebAssembly与更广泛的网络平台的整合。草案地址:https://www.w3.org/blog/news/archives/9509
元宇宙超算力来了,这家独角兽要造AR芯片
安谋科技(中国)有限公司(以下简称“安谋科技”)与Rokid宣布就面向元宇宙应用的终端芯片和生态建设达成战略合作协议。安谋科技将依托本土自研的核芯动力XPU智能数据流融合计算平台以及广泛的Arm技术生态,赋能元宇宙终端芯片设计,向Rokid提供高算力、低功耗的全新AR解决方案,满足新一代元宇宙终端的特定需求。双方达成共识,将在终端芯片、终端设备,以及操作系统、软件工具和人工智能算法等多个领域进行深度合作,共同推动元宇宙的生态建设。
消息称特斯拉或在今年实现完全自动驾驶
据媒体报道,日前,马斯克在访谈中透露,特斯拉将在今年实现FSD(完全自动驾驶),有超过10万人参与了测试项目。他强调,“实现完全自动驾驶”是指特斯拉汽车可以在大多数城市中行驶,不需要人工干预,且比人类司机更安全,可以提高车辆避免事故的概率。(Tech星球)
✦
✦
✦
超级干货
✦
iOS AVDemo(9):视频封装,采集编码 H.264/H.265 并封装 MP4丨音视频工程示例
近期,Tianchi发布了一份非常全面的开源数据集。包含了计算机视觉,自然语言处理,金融,电商,医疗,工业,农业等数据集,非常适合学习和实践,Datawhale整理如下。
算法工程师必备系列更新啦!小编整理了必要的机器学习知识,全部以干货的内容呈现,哪里不会学哪里,老板再也不用担心你的基础问题!本期内容:CNN:图像分类。
算法工程师必备系列更新啦!小编整理了必要的机器学习知识,全部以干货的内容呈现,哪里不会学哪里,老板再也不用担心你的基础问题!本期内容:CNN:图像分类。
作者July总结了一篇关于计算方法的文章《 细数二十世纪最伟大的10大算法 》。
本文根据作者为自己的公众号文章搬家到博客的亲身经历,为大家分享了个人建站的详细过程,包括选择服务器,怎么利用WordPress博客和SRS音视频服务器搞直播等。
如何使用FFmpeg将AVI转换为MP4(有损转换和无损转换)
ETDM:基于显式时间差分建模的视频超分辨率(CVPR 2022)
之前的循环VSR方法大多将相邻帧参考帧以及前一时刻的SR输出作为输入,本文将未来的SR输出也参与进参考帧的重建,通过伪相邻SR的方式精进细节,这让笔者眼前一亮。
本节主要介绍语音产生的过程,包括具体的生理机制,以及由此抽象出的数学模型,包括语音线性产生模型和非线性产生模型。
最近在研究图片压缩原理,看了大量资料,从上层尺寸压缩、质量压缩原理到下层的哈夫曼压缩,走成华大道,然后去二仙桥,全看了个遍,今天就来总结总结,做个技术分享,下面的内容可能会颠覆你对图片压缩的认知。
在本文中,将介绍使用Concept创建自己的概念模型的步骤。Concept是一个包,它同时在图像和文本上引入主题建模的概念。
在知识星球里面有一个同学咨询剪映里面的缩略图是如何快速抽取的,关于这个问题,笔者希望分享下对这个问题的一些理解和分析思路,同时也是抛砖引玉,如果各位看官有其他理解和一些自己的看法,欢迎交流。
这篇文章主要介绍了 WebRTC 的一些主要 API 和内部自带的建立连接的功能及特性。
图像插值技术在图像几何变换、透视变换等过程中是必不可少的技术环节,可以说像素插值方法最终决定变换之后的图像质量高低。
本文介绍了图像视频质量评估的基本概念和评价意义,主要涉及到主观质量评估中数据集的产生过程,以及客观质量评估中典型的全参考和无参考评估模型的设计方法。
基于深度学习的计算机视觉,应用于无人驾驶的视觉感知系统中,主要分为四大块:动态物体检测、通行空间、车道线检测、静态物体检测,本文主要从需求、难点、实现三个方面对每项感知部分做剖析。
FFmpeg命令分析-3
本系列主要分析各种 FFmpeg 命令 在代码里是如何实现的。本文分析 FFmpeg 改变文件的采样率命令 在代码里是如何实现的。
https://juejin.cn/post/7052350229831647269
✦
✦
✦
科技前沿
✦
Dan Rayburn: 流媒体服务所做的任何事情都必须有其商业价值
CVPR 2022 Oral | 人大高瓴AI学院提出:面向动态视音场景的问答学习机制
融合RGB与近红外“看清黑暗”,低照度成像方法:暗视觉网络(AAAI 2022)
CVPR22 | 从图形学顶会到视觉顶会:图像拼接矩形化新基准
我们提出了第一个拼接图像rectangling的深度学习解决思路,同时构建了第一个带标签的rectangling数据集,将计算机图形学问题结合新的深度学习范式并带至计算机视觉顶会。
人脸检测识别在我们的生活中已经无处不在,未来十年内,人脸领域的技术依然火热,今天就让谷歌公司带领大家一起来学习认知下该领域的技术,及未来发展趋势!
ResNet超强变体:京东AI新开源的计算机视觉模块!(附源代码)
京东AI研究院提出的一种新的注意力结构。将CoT Block代替了ResNet结构中的3x3卷积,来形成CoTNet,在分类检测分割等任务效果都出类拔萃!
微软最新的AI技术“PeopleLens”是一种计算机视觉系统,使用机器学习算法帮助盲人与他们的社会环境互动。该项目旨在帮助有视力障碍的人变得更独立,更积极地融入社会。
本文将主要介绍人工智能技术在自动驾驶中的应用领域,并对自动技术的发展前景进行一个简单的分析。
✦
✦
✦
推荐阅读
✦
机器视觉 就是用机器代替人眼来做测量和判断。机器视觉系统是指通过机器视觉产品将被摄取目标转换成图像信号,传送给专用的图像处理系统,根据像素分布和亮度、颜色等信息,转变成数字化信号。
音频正当时:我们和声网音频专家聊了聊AI、元宇宙、空间音频和“沉浸感”
当下人脸识别并非什么新鲜事,公安部门可以通过监控摄像捕捉犯罪嫌疑人,这有利于维护社会秩序和民众安全。但是,人脸识别运用到战争中,这就成了武器。俄乌战争中的士兵人脸识别,是信息战还是心理战?
盘点丨Meta Quest 2上这20款免费VR优秀作品值得一玩!
为您盘点Meta Quest 2上20款不错又免费的优秀作品,快来看看吧。
本文从 8K 内容的编码、质量评价以及码率和质量的权衡对 8K 内容的实时编码现状进行了分析,并进一步展望了 8K 内容的码率会达到一个什么样的水平。
这篇文章主要介绍了 Facebook 基于视频理解,面向用户创建的智能裁剪和智能预览技术。
最近日本有位网友在Twitter上表示,过去5个月都在玩VR,原本需要带眼镜才能驾车出行,现在不需要佩戴也可以看得很清楚!并且还特地跑到医院去检查视力,果然是得到了大幅度的改善。
在今年的世界读书日来临之际,LiveVideoStack邀请了来自音视频领域的9位技术人士,为大家推荐了18本好书。
✦
✦
活动推荐
报名参加腾讯云专场活动,更有精美礼品相送!
随着音视频技术的飞速发展,实时互动在众多领域得到了广泛的应用,各行各业对低延时的追求也越来越高。5G、新一代编解码标准、网络传输和实时音视频技术的革新为各行业带来了更多新的机会和挑战。物联网、流媒体、工业、出海、社交等行业与音视频能碰撞出怎样的火花?本次专场将为大家带来:实时音视频5G远程操控技术、腾讯云流媒体技术、编解码技术、出海实践、对等网络实时音视频通信技术,讲师们将与大家共话音视频通信领域发展趋势,合力谱写音视频通信新时代的蓝图。
活动时间:2022年6月24日 14:00-17:55
活动地点:上海海神诺富特大酒店
报名方式:点击「阅读原文」立即报名。
以上是关于音视频技术开发周刊 | 242的主要内容,如果未能解决你的问题,请参考以下文章