每周一期,纵览音视频技术领域的干货。
微博视频处理系统的云原生之路
本次LiveVideoStackCon 2021 音视频技术大会 北京站邀请到了新浪微博视频平台架构师——黄阳全,他将为我们介绍微博视频处理系统的架构演进与云原生之路上的探索,为什么选择自建,以及如何实现基于原有基础服务的FAAS平台。为尝试云原生架构模式的开发者提供参考。
实时 8K 服务的现状
本文主要讨论实时 8K 服务的现状。首先从 8K 格式标准入手介绍什么是 8K,然后从编码角度分析如何才能提供实时的 8K 服务,随后谈到目前有哪些在 8K 实时视频服务上的尝试并从中分析实时 8K 服务的未来。
技术宝典 | 基于标准 WebRTC 低延迟直播的开源实践
2020年,新冠疫情爆发并席卷全球,对包括中国在内的全球经济造成了巨大的冲击,同时深刻影响了社会生活。在这一背景下,以消费市场上轰轰烈烈的直播电商为引爆点,直播行业再次掀起热潮。在中国企业数字化转型的浪潮中发展了十年之久的企业直播服务市场,也顺势进入高速发展阶段。
ORTC与SIP融合通信服务架构
以往的音视频通信技术大多是基于SIP/H323的实现方案,本文提供一种融合方案,实现RTC与SIP的互联互通,使得RTC能够很轻易的实现与PSTN、SIP Trunk的对接,同时传统的会议终端通过该方案也能轻易接入RTC系统。
使用 JT-NM 参考架构来建立云/混合工作流
本文来自 IBC,深入探讨了为现场和生产工作流程开发一个混合/基于云的系统所涉及的技术。它侧重于 JT-NM 参考架构,我们将看到它是如何允许媒体从任何地方输入并存储在本地或云端,工作人员可以在任何有合理互联网连接的地方工作。还介绍了这种先进的、新颖的实施方式是如何在全球范围内安全地进行扩展。
ffmpeg 5.0 发布
FFmpeg 5.0 正式发布,距离上个版本 4.4 相隔 9 个月时间,该版本的一些亮点更新如下:新的 Vulkan 驱动的视频水平/垂直翻转过滤器;Apple Graphics SMC 编码器;Speex 解码器;各种新的 muxers/demuxers,例如 Argonaut Games CVG 和实验性的 IMF demuxer;添加了一个 AV1 低开销比特流格式复用器;Swscale slice 线程支持;新的音频和视频过滤器;LoongArch CPU 架构支持;清除原有弃用警告。
https://github.com/FFmpeg/FFmpeg/tree/ce4d459db186a7d8ac842685cd6256c9ac1b7f25
中科院声学所团队结合可调式头靠结构与虚拟传感算法实现反馈有源噪声控制
虚拟传感方法可以将降噪目标从远处的传声器转移到人耳处。影响虚拟传感算法性能的主要因素是次级声场与初级声场的变化。研究人员提出的可调式头靠结构,将用于抵消噪声的次级扬声器和相应的监测误差传声器作为一个整体移动,进而确保了在人头移动和切换用户时可以通过调节措施使次级声场保持近似一致。虚拟传声器方法缓解了初级声场变化对性能的影响,适用于混响时间较短的低频噪声场中。
纹理感知视频插帧
本文来自 PCS2021 Special Session 2 的第 3 场演讲,讲者验证了视频纹理类型对视频插帧模型的性能有显著影响,并且提出为三种纹理类型训练三个模型。实验结果表明,对不同纹理类型单独训练的模型组合优于对所有种类的纹理进行训练的单一模型。提出的 TAFI(纹理感知视频帧插值),可以推广到任何插帧方法并提高其性能。
互动白板的技术基础和发展
最近互动白板「Miro」获得4亿美元融资,估值达到175亿美元。这则消息也让很多人开始关注互动白板这个曾经非常小众的领域。会议或者教学中,我们常见的需求是语音视频通信外加展示资料。所以一般情况下实时音视频再加上一个录屏功能就足以覆盖主流的需求。但是我们观察主流的会议软件或者教学软件都不难发现一个规律,它们都配备了强大的互动白板系统。那什么情况我们才会需要互动白板来辅助教学或者会议呢,或者说对比一般的屏幕分享,互动白板有哪些难以取代的优势?
什么是视频点播(VOD)?
VOD代表Video on Demand,是一种能够让人们随时随地,在任何设备上观看视频的视频流化技术。在观看有线电视或者传统电视时,你只能使用节目指南(即EPG——该指南规定服务提供商何时播放电影或者剧集)观看节目。你需要在特定时间坐在电视机前,才能观看你最喜欢的节目。而且你总是要为电视连接上有线电缆。然而,使用了VOD,只要网络连接良好,你就能在商场里、公交车上或者办公室里吃午餐的时候随时在任何设备上观看节目。
7英尺的屏幕:比Zoom更好还是更糟?
在新冠疫情蔓延的近两年时间里,全球各地的公司白领们已经习惯了在视频通话中只看到他们同事的半身像,甚至是只能看到一个头部区域的画面。但一家法国初创公司在消费电子展上展示了其7英尺高的数字视频聊天系统,该系统希望即使你与你的同事相隔很远,但还能够通过屏幕可以从头到脚的看到一个全身像的同事。
https://mashable.com/article/7-foot-video-conferencing-digital-screen-la-vitre?utm_source=feedly&utm_medium=webfeeds
三维点云的深度学习研究综述
点云学习由于在计算机视觉、自动驾驶、机器人等领域的广泛应用,近年来受到越来越多的关注。作为人工智能的主导技术,深度学习已经成功地用于解决各种二维视觉问题。然而,由于深度神经网络处理点云所面临的独特挑战,基于点云的深度学习仍处于起步阶段。最近,点云上的深度学习变得更加繁荣,提出了许多方法来解决这一领域的不同问题。为了促进未来的研究,本文对点云深度学习方法的最新进展进行了全面的综述。该算法主要包括三维形状分类、三维目标检测与跟踪和三维点云分割三个主要任务。它还提出了几个公开可用的数据集的比较结果,以及深刻的观察和启发未来的研究方向。
你说我画,你画我说:全球最大中文跨模态生成模型文心ERNIE-ViLG来了!
在文字生成图像上,文心 ERNIE-ViLG 可以根据用户输入的文本,自动创作图像,生成的图像不仅符合文字描述,而且达到了非常逼真的效果。在图像到文本的生成上,文心 ERNIE-ViLG 能够理解画面,用简洁的语言描述画面的内容,还能够根据图片中的场景回答相关的问题。前不久,百度产业级知识增强大模型 “文心” 全景图亮相,近日,其中的跨模态生成模型 ERNIE-ViLG 在百度文心官网开放体验入口,并放出了论文。
上交开源业界首个两阶段物体阴影生成网络,自建数据集DESOBA,入选AAAI 2022
物体阴影生成任务旨在给定一张合成图和前景物体掩码,为前景物体生成合理的阴影,可以视为图像到图像翻译 (image-to-image translation) 的任务。为该任务训练深度学习网络需要大量成对的训练数据:没有前景物体阴影的合成图和有前景物体阴影的目标图。然而,这种成对数据在现实世界中极难获取。
图像处理技术(二)滤波去噪
在图像处理领域中,在真正的应用过程前,通常需要对图像进行预先处理,达到去除干扰项的目的。滤波去噪就是其中的一项图像预处理工作。在.NET下常用OpenCV进行图像处理工作,常用的.NET下的OpenCV库有Emgu CV和OpenCVSharp。本文将介绍利用Emgu CV进行图像处理滤波去噪的常用方法。
避免自动驾驶事故,CV领域如何检测物理攻击?
本文结合三篇论文具体讨论计算机视觉领域中的物理攻击及检测方法。对抗性攻击的概念首先由 Goodfellow 等人提出,近年来,这一问题引起了越来越多研究人员的关注,对抗性攻击的方法也逐渐从算法领域进入到物理世界,出现了物理对抗性攻击。文献中首次提出了利用掩模方法将对抗性扰动集中到一个小区域,并对带有涂鸦的真实交通标志实施物理攻击。与基于噪声的对抗性攻击相比,物理攻击降低了攻击难度,进一步损害了深度学习技术的实用性和可靠性。