音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。新闻投稿：contribute@livevideostack.com。

ETH联合Meta和鲁汶大学提出视频恢复算法VRT，在视频超分辨率、去模糊和去噪性能达到SOTA

该论文为将Swin Transformer应用于单图超分中的SwinIR的视频扩展版本，在视频复原的各领域中都有很大的提升，本文将从视频超分方向来解读VRT。

全息视频通话

这篇演讲针对全息视频通话进行了介绍：演讲者在对全息视频通话目前的整体架构进行了概述的基础上，指出了当前在便携式设备上实现全息视频通话面临的主要挑战和后续可以解决这些困难的思路。

FFmpeg 源码分析-转码3

本系列以 FFmpeg4.2 源码为准，本文主要分析 transcode_step() 的内部逻辑，以一条简单的命令开始，ffmpeg -i a.mp4 b.flv。

https://juejin.cn/post/7052337630020632584

消费电子产品中的音频技术盘点

今天小编就带着大家一起盘点一下耳机中使用的你不知道的音频技术，你可能此时此刻就在享受它带给你的便利。

iOS AVDemo（3）：音频封装，采集编码并封装为 M4A丨音视频工程示例

这是第三篇iOS 音频封装 Demo，包含以下内容：1.实现一个音频采集模块；2.实现一个音频编码模块；3.实现一个音频封装模块；4.串联音频采集、编码、封装模块；5.详尽的代码注释，帮你理解代码逻辑和原理。

机器学习改进语音识别技术

在由美国声学学会通过AIP Publishing出版的《美国声学学会杂志》中，来自德国的研究人员探索了一种基于机器学习和深度神经网络的人类语音识别模型。

视频编解码芯片设计原理----04 帧内预测

本文首先给出了HEVC帧内预测的相关背景知识，接着分析了VLSI实现RMD过程所面临的一些限制条件并有针对地优化了RMD算法，然后分析并总结了上述算法在VLSI实现时所面临的实际问题，并有针对地提出了对应的VLSI结构。

一文读懂 Android FFmpeg 视频解码过程与实战分析

本文主要介绍了 FFmpeg 进行解码视频时的主要流程、基本原理，还讲述了与 FFmpeg 视频解码有关的简单应用，除此之外，文章重点介绍了解码视频时可能容易遗漏的细节，最后阐述了如何封装一个具有基本的视频解码功能的 VideoDecoder。

CVPR 2022 | 一举打败16个同类模型！视频超分辨率冠军算法开源了！

现在，在视频超分领域，有一个强大的算法拿下了超分比赛NTIRE 2021三冠一亚的优异成绩，登上了CVPR 2022。它的名字叫做BasicVSR ，是对视频超分SOTA模型BasicVSR的进一步改进。目前，BasicVSR 的代码已经开源，感兴趣的同学可以去试试。

OpenCV基础知识入门

本文旨在让你快速入门opencv。OpenCV是计算机视觉中最受欢迎的库，最初由intel使用C和C 进行开发的，现在也可以在python中使用。该库是一个跨平台的开源库，是免费使用的。OpenCV库是一个高度优化的库，主要关注实时应用程序。

VLC 时隔9个月发布 3.0.17

VLC 3.0.17在VLC 3.0.16之后约9个月的时间里，推出了几个新功能，包括支持DTS-HD LBR（低比特率）解码器，支持AV1、E-AC3和GeoVision解码器的新FOURCC，支持DAV视频文件，WebP图像映射，以及支持MP4文件的未压缩音频（ISO/IEC 23003-5）。

是时候让 WebRTC“成型”了

主讲人介绍了 WHIP——WebRTC HTTP INCEST 协议，解决了 WebRTC 作为专业，强大的贡献协议的最大痛点——媒体摄取的问题。

公网传输技术之SRT协议解析（上）

本文将从SRT协议的原理分析入手，尝试定义出一个衡量SRT链路可靠性高低的指标：链路安全冗余量(Secure-Margin)，并详细介绍如何依照这个指标来部署一个可靠的SRT传输链路，并分析在不同的直播场景中的参数调整策略。

收藏 | 机器学习最全知识点汇总（万字长文）

机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。要想学习机器学习，都需要掌握哪些知识，本文帮你进行了梳理，赶紧收藏吧。

2442 个专业术语！人工智能术语库 AITD 更新至 3.1 版

2022 年 2 月，机器之心联合深势科技更新「AITD」Version 3.1，发布第二个「专项领域」AI for Science 篇。「AITD」Version 3.1 相较于第一版的 500 词、第二版的 755 词，在规模上扩大了不少。术语库 3.1 版包含了 2442 个专业术语。

CVPR最有趣论文 | 再模糊的照片AI都可以可以恢复

生活中，我们都会遇到图片模糊状态下，很早之前我们是不可能恢复；之后通过PS进行修复，也会有畸形或者差异的表现；但是，现在AI可以准确完整的恢复出blind face。

从VR到元宇宙：回顾30年，改变虚拟现实的18件大事

本文梳理了VR领域的一些「里程碑事件」，从1992年电影《天才除草人》上映，引入VR这个概念开始讲起。从VR到元宇宙，一文看尽虚拟现实发展史。

人脸随意编辑！Adobe祭出新一代GAN神器：最多支持35个人脸属性变化

用GAN模型进行图像合成有一个显著缺点，就是生成的图像不可控制，经常是摘个眼睛把性别都变了。最近Adobe提出新一代GAN模型，能够自由控制35个人脸属性的变化，而不会互相干扰。

自动驾驶上的三种感知传感器（激光、毫米波雷达和摄像头）优缺点比较

为自动驾驶车辆选择合适的传感器组是一项微妙的任务，因为需要平衡从可靠性到成本的一系列因素，以便公司能够确定最佳点并选择最佳传感器组。我们将从如下10个维度，了解相机、激光雷达和（毫米波）雷达的差异。

基于三维激光点云的目标识别与跟踪研究

针对无人车环境感知中的障碍物检测问题，设计了一套基于车载激光雷达的目标识别与跟踪方法。为降低计算量，提高处理速度，引入了点云过滤与分割算法对原始激光点云数据进行缩减，有效提高了检测的实时性。

记录一下我学习无人驾驶的心路历程

作者最开始先整理了一些需要学习的工具和相关理论。从某些大厂实习招聘需要，找了一些要求（虽然某些大佬说这不是好方法，但是也可以参考一下）

阅读推荐

LG电子加入开放媒体联盟

开放媒体联盟(AOMedia) 3月8日宣布，电子、家用电器和家庭娱乐解决方案的跨国制造商LG 电子(LG) 已加入发起人级别的组织。作为联盟成员，LG 将与领先的互联网和媒体技术公司AOMedia 成员合作，推进网络媒体压缩和交付的开放标准。

https://finance.yahoo.com/news/lg-electronics-joins-alliance-open-170000927.html

马斯克：我有一个大胆的想法！给红绿灯加个AI视觉「外挂」

最近，一位老哥抱怨说，凌晨的路上连辆车都没有，但是自己却需要在空无一人的路口默默地等待20分钟，红灯才会变绿。显然，红绿灯应该交给AI去控制。马斯克也深表赞同：「100%正确。」

VR丝滑全景指日可待？谷歌这个360° NeRF让人看到未来

今天要介绍的论文来自谷歌研究院和哈佛大学。谷歌研究科学家、论文一作 Jon Barron 表示，他们开发了一种名为 Mip-NeRF 360 的模型，该模型能够生成无界场景的逼真渲染，给我们带来了 360° 的逼真效果和漂亮的深度图。

2022海外流媒体十大技术趋势

我们之前说过，未来也将重申：视频正在颠覆商业。流媒体技术为用户提供的广泛的可访问性，将更多权力赋予给创作者。区块链、加密、Web3等正在驱动去中心化。接着，避开大公司的新型盈利模式将会发展起来。

活动推荐

高含金量实践证书&内推机会包三餐丨2022音视频技术大会多岗志愿者招募启动

LiveVideoStackCon 音视频技术大会是多媒体技术领域的盛会，分享技术创新与最佳实践，至今已在北京、上海等多地成功举办九届大会。历经半年多的时空隔阂，我们将于4月15日-4月16日在上海举行一场音视频领域的线下聚会。现开始招募志愿者，「点击查看详情」。

【城市沙龙】LiveVideoStack Meet | 长沙：多媒体与广电

进入到2022虎年，LiveVideoStack Meet将于3月19日在长沙与大家见面，本次分享内容涵盖数字内容生产技术突破、云原生、视频内容检测与ROI编码、深度学习视频编码实践等多方面，快来现场与嘉宾面对面交流吧。

时间：2022年3月19日 14:00-16:00

地点：长沙市开福区湖南广电中心芒果TV形象体验区(聚宝盆)103会议室

报名：点击「阅读原文」，立即报名。

编程算法视频处理机器学习 opencv 神经网络

0 人点赞

音视频技术开发周刊 | 236