音视频技术开发周刊 | 228

2022-02-11 09:55:08 浏览数 (1)

每周一期,纵览音视频技术领域的干货。

K歌中的歌唱评价与嗓音分析

作为国内首创的综合评分功能,音街的综合评分系统可对用户的音准、节奏、气息、颤音、滑音、情感等维度进行综合评价,这些多维度评分在增加演唱趣味性的同时,也可为作品分发提供可用的标签等等。本次LiveVideoStackCon 2021北京线下峰会我们邀请到了网易云音乐高级音频算法工程师高月洁老师,本次分享将围绕歌唱与嗓音分析,介绍相关的体系与算法实现。

用神经网络重新审视 VVC 的 SAO 环路滤器

Philippe 首先介绍道,在最近的视频编解码器中,环路后处理滤波已经成为一种至关重要的组件。它可以减少压缩伪影,并减少与原始样本的失真。AVC 首先引入了去块滤波器,之后 HEVC 额外引入了 Sample Adaptive Offset 后处理滤波器,以减少振铃效应和颜色偏差。最近发布的 VVC 标准设计了一种自适应的环路滤波器,使用基于维那滤波器的自适应滤波系数,来最小化重建像素和原始像素之间的 MSE。

深入解析QUIC协议

QUIC(Quick UDP Internet Connection)是Google提出的一个基于UDP的传输协议,因其高效的传输效率和多路并发的能力,已经成为下一代互联网协议HTTP/3的底层传输协议。除了应用于Web领域,它的优势同样适用于一些通用的需要低延迟、高吞吐特性的传输场景。本文从QUIC的由来和优势出发,分享实际项目中需要考虑的问题和解决思路,通过测试对比QUIC和TCP的实际传输能力,希望有助于大家理解和实践QUIC协议。

关于WebRTC发展的担忧和思考

本篇为WebRTC技术专家Tsahi Levent-Levi发布在BlogGeek.me上的文章,我们翻译了其中部分内容发布在LiveVideoStack的公众号上。感谢Tsahi的授权。

我对WebRTC的主要担心是:一场大战蓄势待发。一方面,谷歌虽然一直引领WebRTC的发展,但作为一家大公司,它很可能没有从WebRTC中看到足够的价值。另一方面,行业中的其他人对于WebRTC的主要库libwebrtc(归谷歌所有,由其控制和维护)正在发生的事感到沮丧不已。这就导致了不同分支的产生——人们不断讨论和尝试为WebRTC这一规模宏大的项目找到更好的结构解决方案。

全 IP 制作中的现实挑战

本次演讲中,Gordon Castle 介绍了 Eurosport 技术转型的背景、优势以及面临的挑战。ETT(Eurosport Technology Transformation) 指代 Eurosport 技术转型。ETT 旨在替换老化的基础设施,因为它限制了改变的能力,限制了灵活性导致难以扩展,技术不足以支持新的发展,而且运营成本不断上升。而我们想要做的是建立一个全新的、基于 2110 的基础设施,采用不同的技术方法允许位置和商业灵活性,降低添加新服务的技术成本,让我们更快地进入新服务市场和消费者测试。

技术干货 | WebRTC 技术解析之 Android VDM

WebRTC 中的Android VDM(Video Device Manager)技术模块,是指 WebRTC 基于 Android 系统,对视频数据采集、编码、 解码和渲染的管理。当你拿到一部Android 手机,通过网易云信 SDK 进行 RTC 通信时,你是否好奇, Android 系统的 VDM 是如何实现的?WebRTC 又是如何使用 Android VDM 的?本文对 WebRTC 中 Android VDM 的实现进行了分解和梳理。

王者QQ微信都在用的动画神器要开源了:把交付时间缩短90%

PAG团队自研实现了一套轻量纯GPU绘图引擎,通过最大化利用平台端提供的所有能力,以500K左右的包体覆盖了Skia的绝大部分功能,并且在接口设计上充分暴露了针对现代GPU渲染的优化能力。因此,包体减小的同时,渲染性能的上限实际得到了进一步的提升。

另外,PAG 4.0版本基于这个全新的2D绘图引擎,也将正式拓展对Web端的支持。据悉,目前PAG 4.0版本已经走完腾讯开源审核流程。

使用 Amazon Voice Focus AMI 降低音频中的噪音

Amazon Chime SDK 团队为客户推出了Amazon Voice Focus AMI,以帮助降低噪音并提高其音频内容的质量。Amazon Voice Focus 是一种深度学习噪声抑制算法,用于 Amazon Chime SDK 会议。它现在打包为 Amazon Linux 2 (AL2) Machine Image (AMI)。Amazon Voice Focus AMI 可帮助建设者、内容创作者和媒体制作人减少背景噪音(如风扇、割草机和狗叫声)以及前景噪音(如打字和洗牌)。

https://aws.amazon.com/cn/blogs/business-productivity/using-amazon-voice-focus-ami-to-reduce-noise-in-audio/

理解直播及其工作原理

直播是指通过互联网实时传输演出的音频和视频内容。随着实时视频的流行,直播俨然已成为众多企业和组织市场战略的重要组成部分。直播可用于活动(赛事)直播、提供客户服务以及举行网络研讨会等一切内容。

本篇文章将带你探索什么是直播、直播的工作原理以及如何将它用于你自己的企业或者组织中。让我们一起来看一个典型的直播架构,然后为你详细解释转码、封装、DRM、广告插入、基于CDN的传输、回放以及其他组成直播管道的服务。

字节跳动智创语音团队发布高保真、低延迟、高并发的AI歌唱合成技术

字节跳动智能创作语音团队SAMI(Speech, Audio and Music Intelligence)近日上线一项高保真、低延迟、高并发歌唱合成技术。该技术在兼顾保真度和速度上实现了一定的突破:一方面,AI模型可以模拟人类独特的音色、技巧和情感,使得演唱效果媲美真人;同时,该模型可以提供超低延迟、高并发的歌唱合成服务,可以轻松适配C端业务场景。

谷歌推出全能扒谱AI:只要听一遍歌曲,钢琴小提琴的乐谱全有了

谷歌近日推出了“多任务多音轨”音乐转音符模型MT3。作者使用单一的通用Transformer架构T5,而且是T5“小”模型,其中包含大约6000万个参数。该模型在编码器和解码器中使用了一系列标准的Transformer自注意力“块”。为了产生输出标记序列,该模型使用贪婪自回归解码:输入一个输入序列,将预测出下一个出现概率最高的输出标记附加到该序列中,并重复该过程直到结束 。生成的乐谱通过开源软件FluidSynth渲染成音频。MT3使用梅尔频谱图作为输入。对于输出,作者构建了一个受MIDI规范启发的token词汇,称为“类MIDI”。

车载激光雷达白皮书

目前,超过 100 家不同的开发公司已投入约 10 亿美元,用于开发高分辨率激光雷达( LiDAR )传感器。随着多家 OEM 厂商宣布将激光雷达解决方案纳入畅销车型,其在汽车市场中的应用也将提速。

自动驾驶中可解释AI综述和未来研究方向

该研究为开发自动驾驶车辆的可解释人工智能(XAI)方法提供了全面的信息。首先,全面概述了目前最先进的自动驾驶汽车行业在可解释方面存在的差距。然后,展示该领域中可解释和可解释受众的分类。第三,提出了一个端到端自动驾驶系统体系结构的框架,并论证了XAI在调试和调控此类系统中的作用。最后,作为未来的研究方向,提供自主驾驶XAI方法的实地指南,提高操作安全性和透明度,公开获得监管机构、制造商和所有密切参与者的批准。

插图源自Pexels

0 人点赞