音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。新闻投稿：contribute@livevideostack.com。

✦

一周简讯

✦

W3C发布WebAssembly 2.0首个公开工作草案

WebAssembly 工作组这次共发布了三个第一个公开工作草案，包括：WebAssembly Core Specification 2.0版，描述了2.0版本的WebAssembly核心标准，是一种安全的、可移植的、为高效执行和紧凑表示而设计的低级代码格式；WebAssembly JavaScript Interface 2.0 版，提供了一个明确的JavaScript API，用于与WebAssembly进行交互；WebAssembly Web API 2.0 版，描述了WebAssembly与更广泛的网络平台的整合。草案地址：https://www.w3.org/blog/news/archives/9509

元宇宙超算力来了，这家独角兽要造AR芯片

安谋科技（中国）有限公司（以下简称“安谋科技”）与Rokid宣布就面向元宇宙应用的终端芯片和生态建设达成战略合作协议。安谋科技将依托本土自研的核芯动力XPU智能数据流融合计算平台以及广泛的Arm技术生态，赋能元宇宙终端芯片设计，向Rokid提供高算力、低功耗的全新AR解决方案，满足新一代元宇宙终端的特定需求。双方达成共识，将在终端芯片、终端设备，以及操作系统、软件工具和人工智能算法等多个领域进行深度合作，共同推动元宇宙的生态建设。

消息称特斯拉或在今年实现完全自动驾驶

据媒体报道，日前，马斯克在访谈中透露，特斯拉将在今年实现FSD（完全自动驾驶），有超过10万人参与了测试项目。他强调，“实现完全自动驾驶”是指特斯拉汽车可以在大多数城市中行驶，不需要人工干预，且比人类司机更安全，可以提高车辆避免事故的概率。(Tech星球）

✦

超级干货

✦

iOS AVDemo（9）：视频封装，采集编码 H.264/H.265 并封装 MP4丨音视频工程示例

在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是第九篇：iOS 视频封装 Demo。

从高级程序员的角度来看，Rust 基础知识

Rust是一门系统编程语言，专注于安全，尤其是并发安全，支持函数式和命令式以及泛型等编程范式的多范式语言。Rust语言在2006年作为 Mozilla 员工 Graydon Hoare 的私人项目出现，而 Mozilla 于 2009 年开始赞助这个项目。

视频编解码芯片设计原理----10 参考帧压缩

本系列主要介绍视频编解码芯片的设计，以HEVC视频编码标准为基础，简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。本文将先介绍一种优化的参考帧压缩的预测方法和熵编码算法，然后介绍其VLSI实现和性能评估。

图像信号处理芯片设计原理----03 坏点矫正

本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究，以典型的相机成像系统为基础，涉及的内容包括各类缺陷校正，去马赛克，去噪，3A算法（自动对焦，自动曝光，自动白平衡），超分，HDR，风格迁移等主题。

阿里云天池发布完整开源数据集！实测可下！

近期，Tianchi发布了一份非常全面的开源数据集。包含了计算机视觉，自然语言处理，金融，电商，医疗，工业，农业等数据集，非常适合学习和实践，Datawhale整理如下。

AI |算法工程师必备的深度学习--CNN:图像分类（上）

算法工程师必备系列更新啦！小编整理了必要的机器学习知识，全部以干货的内容呈现，哪里不会学哪里，老板再也不用担心你的基础问题!本期内容：CNN:图像分类。

AI |算法工程师必备的深度学习--CNN:图像分类（中）

OpenCV 实现多张图像拼接

OpenCV中从2.4.x版本之后多出来一个新的模型图像拼接，该模块通过简单的高级API设置，可以获得比较好的图像拼接效果，OpenCV官方提供了一个高度集成的API函数 Stitcher，只要两行代码就可以得到一个很好的拼接图像。

细数二十世纪最伟大的10大算法

作者July总结了一篇关于计算方法的文章《细数二十世纪最伟大的10大算法》。

关于直播、WebRTC、FFmpeg 的那些事~~

在知识星球中有位同学咨询了关于直播、webrtc、FFmpeg的一系列问题，这些问题都是大家平时关注的问题。为了让大家在从事音视频之前能对相关概念有一个清晰的理解，此前对这些问题做了系统性的回复，这些答案也许会对你有所帮助，也算是抛砖引玉，欢迎大家一起交流。

什么是辐辏调节冲突？

说起辐辏调节冲突，想必很多人都不太了解。然而我们或许都体验过它所带来的影响。无论是观看3D电影，还是使用AR、VR眼镜，都会产生辐辏调节冲突，导致我们出现视疲劳、眩晕、头疼等不良反应。今天小编就带大家了解一下什么是辐辏调节冲突。

如何用WordPress和SRS在网站植入视频

本文根据作者为自己的公众号文章搬家到博客的亲身经历，为大家分享了个人建站的详细过程，包括选择服务器，怎么利用WordPress博客和SRS音视频服务器搞直播等。

如何使用FFmpeg将AVI转换为MP4（有损转换和无损转换）

在本篇文章中，我们将学习如何使用FFmpeg把视频从AVI格式转换为MP4格式（在重新/不重新编码AVI文件的情况下）。作为福利，我们还将学习FFmpeg在Ubuntu、Mac和Windows上的安装，并使用FFmpeg将AVI无损转换为MP4。

ETDM：基于显式时间差分建模的视频超分辨率（CVPR 2022）

之前的循环VSR方法大多将相邻帧参考帧以及前一时刻的SR输出作为输入，本文将未来的SR输出也参与进参考帧的重建，通过伪相邻SR的方式精进细节，这让笔者眼前一亮。

【语音处理】声音的产生机制和数学模型

本节主要介绍语音产生的过程，包括具体的生理机制，以及由此抽象出的数学模型，包括语音线性产生模型和非线性产生模型。

医学图像处理与深度学习入门

当前，图像处理工具可谓层出不穷，其中，OpenCV(OpenCV library) 因为其强大的社区支持，以及广泛的可用性，在c , java python等等编程语言中皆可使用，因此，OpenCV已经成为图像处理主流工具。在这篇文章中，我们将使用jupyter notebook与OpenCV。

Android最详细的图片压缩攻略

最近在研究图片压缩原理，看了大量资料，从上层尺寸压缩、质量压缩原理到下层的哈夫曼压缩，走成华大道，然后去二仙桥，全看了个遍，今天就来总结总结，做个技术分享，下面的内容可能会颠覆你对图片压缩的认知。

图像的主题模型

在本文中，将介绍使用Concept创建自己的概念模型的步骤。Concept是一个包，它同时在图像和文本上引入主题建模的概念。

快速抽取缩略图是怎么练成的？

在知识星球里面有一个同学咨询剪映里面的缩略图是如何快速抽取的，关于这个问题，笔者希望分享下对这个问题的一些理解和分析思路，同时也是抛砖引玉，如果各位看官有其他理解和一些自己的看法，欢迎交流。

WebRTC 教程（2）

这篇文章主要介绍了 WebRTC 的一些主要 API 和内部自带的建立连接的功能及特性。

图像处理之三种常见双立方插值算法

图像插值技术在图像几何变换、透视变换等过程中是必不可少的技术环节，可以说像素插值方法最终决定变换之后的图像质量高低。

图像视频质量评估 (IQA/VQA)

本文介绍了图像视频质量评估的基本概念和评价意义，主要涉及到主观质量评估中数据集的产生过程，以及客观质量评估中典型的全参考和无参考评估模型的设计方法。

一文读懂基于DL的无人驾驶视觉感知系统的应用场景

基于深度学习的计算机视觉，应用于无人驾驶的视觉感知系统中，主要分为四大块：动态物体检测、通行空间、车道线检测、静态物体检测，本文主要从需求、难点、实现三个方面对每项感知部分做剖析。

WebAssembly 软解 HEVC 在 B 站的实践

WasmPlayer是B站自研的基于 WebAssembly 实现软解 HEVC 的播放器，提供的是软件解码（软解）能力，通俗层面上软件解码是指使用 CPU 进行解码，相对应的硬件解码（硬解）则是使用 GPU 进行解码。

FFmpeg命令分析-3

本系列主要分析各种 FFmpeg 命令在代码里是如何实现的。本文分析 FFmpeg 改变文件的采样率命令在代码里是如何实现的。

https://juejin.cn/post/7052350229831647269

✦

科技前沿

✦

Dan Rayburn: 流媒体服务所做的任何事情都必须有其商业价值

最近，LiveVideoStack有幸邮件采访到了Dan Rayburn。在访谈中，Dan谈到了整个OTT行业所面临的最大挑战、OTT公司如何才能脱颖而出，商业与技术之间的权衡，以及对流媒体行业人士进行教育的重要性。

CVPR 2022 Oral | 人大高瓴AI学院提出：面向动态视音场景的问答学习机制

最近，中国人民大学高瓴人工智能学院GeWu实验室提出了一种新的框架，让AI能像人一样观看和聆听乐器演奏，并对给定的视音问题做出跨模态时空推理。目前这一成果已被 CVPR 2022 接收并选为 Oral Presentation，相关数据集和代码已经开源。

黑夜也能五颜六色，用深度学习实现全彩夜视系统

在一些军事大片中，士兵头戴夜视仪搜索前进似乎是少不了的场景。使用红外光在黑夜中观察的夜视系统通常将视物渲染成单色图像。不过，在最近的一项研究中，加州大学欧文分校的科学家们借助深度学习 AI 技术设计了一新方法，有了这种方法，红外视觉有助于在无光条件下看到场景中的可见颜色。

融合RGB与近红外“看清黑暗”，低照度成像方法：暗视觉网络（AAAI 2022）

对于近红外图像来说, 在人眼不可感知的 NIR 补光灯的帮助下，即使在极端暗光的情况，依然能够保持较高的信噪比。RGB-NIR 融合技术，正是通过高信噪比的 NIR 图像来大幅提升 RGB 图像信噪比的技术，其能够在使用低成本模组的前提下，取得高成本暗光成像模组才能清晰成像。

CVPR22 | 从图形学顶会到视觉顶会：图像拼接矩形化新基准

我们提出了第一个拼接图像rectangling的深度学习解决思路，同时构建了第一个带标签的rectangling数据集，将计算机图形学问题结合新的深度学习范式并带至计算机视觉顶会。

一文读懂自动驾驶多模态传感器融合

多模态融合是感知自动驾驶系统的一项基本任务，最近引起了许多研究人员的兴趣。然而，由于原始数据噪声大、信息利用率低以及多模态传感器的无对准，达到相当好的性能并非易事。本文对现有的基于多模态自动驾驶感知任务方法进行了文献综述。

CVPR 2022 | 多快好省的高光谱图像重建

本文介绍我们近期的两篇文章 MST 与 MST ，其中MST已被 CVPR 2022 接收，MST 被 CVPRW 2022 接收，并在 NTIRE 2022 Spectral Reconstruction Challlenge 中取得第一名。

Google最新最权威的未来人工智能技术之一：人脸领域

人脸检测识别在我们的生活中已经无处不在，未来十年内，人脸领域的技术依然火热，今天就让谷歌公司带领大家一起来学习认知下该领域的技术，及未来发展趋势！

ResNet超强变体：京东AI新开源的计算机视觉模块！（附源代码）

京东AI研究院提出的一种新的注意力结构。将CoT Block代替了ResNet结构中的3x3卷积，来形成CoTNet，在分类检测分割等任务效果都出类拔萃！

微软最新的 AI 技术帮助盲人“看清”：人和物

微软最新的AI技术“PeopleLens”是一种计算机视觉系统，使用机器学习算法帮助盲人与他们的社会环境互动。该项目旨在帮助有视力障碍的人变得更独立，更积极地融入社会。

详述人工智能在自动驾驶中的应用

本文将主要介绍人工智能技术在自动驾驶中的应用领域，并对自动技术的发展前景进行一个简单的分析。

✦

推荐阅读

✦

一文讲透什么是机器视觉！

机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是指通过机器视觉产品将被摄取目标转换成图像信号，传送给专用的图像处理系统，根据像素分布和亮度、颜色等信息，转变成数字化信号。

音频正当时：我们和声网音频专家聊了聊AI、元宇宙、空间音频和“沉浸感”

近日，LiveVideoStack采访到了声网的音频算法负责人冯建元，请他来跟大家聊聊音频相对于视频的优势、音频在元宇宙中的应用、国内音频技术与AI结合的发展、过去一年声网在音频领域所取得突破和对前沿音频技术的探索，以及他本人所主导过的成功项目等。

AI人脸识别走上战场，俄罗斯死伤士兵「回家」？

当下人脸识别并非什么新鲜事，公安部门可以通过监控摄像捕捉犯罪嫌疑人，这有利于维护社会秩序和民众安全。但是，人脸识别运用到战争中，这就成了武器。俄乌战争中的士兵人脸识别，是信息战还是心理战？

盘点丨Meta Quest 2上这20款免费VR优秀作品值得一玩！

为您盘点Meta Quest 2上20款不错又免费的优秀作品，快来看看吧。

2022年前六大边缘计算公司

边缘计算是一种分布式计算框架，它使企业应用程序更接近数据源。这些数据来源包括本地边缘服务器和物联网（IoT）设备。边缘计算的一些最大驱动因素包括，客户追求更好的性能，以及要求缩短交易时间。因此，使这些企业应用程序接近数据是有优势的，比如能够减少延迟和更快分析。

一文梳理车载摄像头技术

各车型中的车载摄像头越来越多。但基本上都会有至少一个ADAS前视摄像头、四个环视摄像头的基础配置。如果再加上近年越来越被重视的驾驶员监控摄像头，可以预见，未来几年，车上至少需要6个摄像头，市场前景巨大。

8K@60fps编码用48Mbps就够吗？

本文从 8K 内容的编码、质量评价以及码率和质量的权衡对 8K 内容的实时编码现状进行了分析，并进一步展望了 8K 内容的码率会达到一个什么样的水平。

基于视频理解的智能裁剪和预览

这篇文章主要介绍了 Facebook 基于视频理解，面向用户创建的智能裁剪和智能预览技术。

发掘VR的隐藏技能：改善使用者视力

最近日本有位网友在Twitter上表示，过去5个月都在玩VR，原本需要带眼镜才能驾车出行，现在不需要佩戴也可以看得很清楚！并且还特地跑到医院去检查视力，果然是得到了大幅度的改善。

学习音视频技术要看什么书？世界读书日图书推荐

在今年的世界读书日来临之际，LiveVideoStack邀请了来自音视频领域的9位技术人士，为大家推荐了18本好书。

✦

活动推荐

报名参加腾讯云专场活动，更有精美礼品相送！

随着音视频技术的飞速发展,实时互动在众多领域得到了广泛的应用,各行各业对低延时的追求也越来越高。5G、新一代编解码标准、网络传输和实时音视频技术的革新为各行业带来了更多新的机会和挑战。物联网、流媒体、工业、出海、社交等行业与音视频能碰撞出怎样的火花？本次专场将为大家带来：实时音视频5G远程操控技术、腾讯云流媒体技术、编解码技术、出海实践、对等网络实时音视频通信技术,讲师们将与大家共话音视频通信领域发展趋势,合力谱写音视频通信新时代的蓝图。

活动时间：2022年6月24日 14:00-17:55

活动地点：上海海神诺富特大酒店

报名方式：点击「阅读原文」立即报名。

javascript 编程算法视频处理自动驾驶无人驾驶

0 人点赞

音视频技术开发周刊 | 242