前些时间,我在知识星球上创建了一个音视频技术社群:关键帧的音视频开发圈,在这里群友们会一起做一些打卡任务。比如:周期性地整理音视频相关的面试题,汇集一份音视频面试题集锦,你可以看看这个合集:音视频面试题集锦。再比如:循序渐进地归纳总结音视频技术知识,绘制一幅音视频知识图谱,你可以看看这个合集:音视频知识图谱。
下面是 2022.06 月知识图谱新增的内容节选:
1)图谱路径:音频算法/3A
- 回声消除(AEC,Acoustic Echo Cancelling)
- 回声原因:在连麦场景,回声是经常发生的,是必须要解决的。一般产生回声的原因是近端的声音被自己的麦克风采集后通过网络传到远端,而远端扬声器播放出来的声音被麦克风采集后通过网络又重新发回近端,使得近端通话者能够从扬声器中听到自己的刚才说的话,产生回声。一般如果你听到的回声时间间隔在 1-2s,很可能就是这种情况。
- 解决方案:通过自适应算法来调整滤波器的迭代更新系数(『自适应滤波器』),估计出一个『期望信号』,『逼近』经过实际回声路径的『回声信号』,也就是去模拟回声信号,然后从麦克风采集的混合信号中『减去』这个模拟回声,达到回声抵消的功能。
- 自动增益(AGC,Automatic Gain Control)
- AGC 可以自动调节音频采集的音量,优化采集到的声音音量忽大忽小的问题(通常是由于发言者与麦克风的距离改变或发言者声音变化导致)。
- 在音视频实时通信中,AGC 在发送端作为均衡器和压限器调整推流音量,在接收端仅作为压限器防止混音之后播放的音频数据爆音,理论上推流端 AGC 做的足够鲁棒之后,拉流端仅作为压限器是足够的,有的厂家为了进一步减小混音之后不同人声的音量差异也会再做一次 AGC。
- 噪声抑制(ANS,Automatic Noise Suppression)
- ANS 可探测出背景固定频率的杂音并消除背景噪音(例如:风扇、空调声自动滤除),从而呈现出与会者清晰的声音。
2)图谱路径:音频算法/音频算法处理
- 响度控制
- 短时能量检测:将连续音频信号,按固定时间(如 10ms)分成一帧帧,计算短时能量。
- 自动增益控制(AGC)
- 动态范围处理(DRC)
- 等响曲线
- 限幅器(Limiter)
- 变速不变调
- WSOLA(Waveform Similarity Overlap-Add),波形相似叠加法,实现时间拉伸效果。在一定的范围内查找待『叠加』的音频帧,该音频帧要符合与原位置处音频帧『波形最相似』的条件,符合该条件的音频帧作为输出帧进行输出视频的合成。
- 变调不变速
- WSOLA 重采样技术
- K 歌打分
- 用算法(比如 YIN)提取基频,跟原始频率比较。只能判断准不准,不能判断好不好听(音色相关,比较主观)。
- 自动混响
- 模拟反射。重复,延时,反射率。
- 均衡器
- 改变各频段的能量分布,听感上音色会有些变化。
- 智能美声
- 用原声音色数据替换变调后的音色数据,避免变调后的音色发生改变。
- 身份识别
- 训练一个模型(GE2E)提取与身份相关的音色特征数据。
- 声音克隆
- 无参考评价
3)图谱路径:渲染/全景视频/投影格式
- ERP,Equi-Rectangular Projection,等距柱状投影。目前应用最为广泛的一种 VR 视频投影方式。最初是公元前 100 年古希腊航海家马里诺·迪·蒂洛为了绘制地图而发明的。
- 投影方式:这种投影方式把地球的经线映射成间距相等的垂直线,把地球的纬线映射成间距相等的水平线,则可生成一幅横纵比为 2:1 的地图。在全景图像及视频中,等距柱状投影的实现思路是用相同数量的采样点保存每条纬线上的数据,从而得到对应的二维平面上的矩形视频。
- 特点:这种投影方式映射关系简单,即使是投影后的二维平面视频也很直观,方便用户观察。但对球形视频每条纬线上都用相同数量的采样点,导致越靠近两极的纬线其冗余采样点数量就越多。例如在两极处,本来只需要一个采样点,但却用了和赤道处同样多的采样点,冗余数据量最大。这种方法增大了视频所占空间,给视频传输过程带来很大问题;像素密度分布极度不均匀的同时还引入了相当严重的图像拉伸,导致了非常高的失真。因为最终视频画质是由原始素材画质和拉伸后视频画质共同决定的,所以采用这种方法得到的视频画质较差。
- EAP,Equal-area Projection,圆柱等面积投影。指的是 Cylindrical Equal-area Projection,是一系列的圆柱等面积投影。
- 投影方式:这种投影方式将经线映射为等间隔的垂直线,纬线映射为水平线(非等间距)。可以想象为,将球面映射到一个圆柱面上并将圆柱面展开。
- 特点:在全景视频中,连续投影主要为 ERP 和 EAP,很明显,他们两者主要区别于平面坐标 y 与球面坐标 φ 的映射关系。ERP 的纬线被投影为等间隔的水平线,而 EAP 不是,因为 EAP 保证了投影的等面积。但两者都存在拉伸问题,引入了较大的冗余。这种投影方式在赤道处无失真,即赤道为标准纬线,失真向两极迅速递增。像任何圆柱投影一样,远离赤道拉伸越严重。两极将一点拉伸为一条线,产生了无限的失真。
- AEP,Adjusted Equal-area Projection。
- 投影方式:Adjusted EAP 是在 JVET-G0051 会议上制定的针对 EAP 投影方式的改进,在 360Lib-4.0 版本中直接替代了原有的 EAP 方式。事实上,EAP 是 AEP 的在投影参数 β=1 时的一种特定情形。
- 特点:在下图中,通过对比左图(a)与右图(b),可以看出在北半球的区域(房屋屋顶),AEP(β=1/1.4)的图形扭曲程度远远小于 EAP,进一步提高了 EAP 的投影质量。
- ECP,Equatorial Cylindrical Projection,赤道圆柱投影。
- 投影方式:赤道圆柱投影(ECP)和等距圆柱投影(ERP)的投影方式相同,同样是将地球的经线映射成间距相等的垂直线,把地球的纬线映射成间距相等的水平线,详情可见 ERP 投影方式。在 ECP 的投影方式中,将投影获得的ERP二维平面划分为6个面积相等的区域,划分及其效果图如下图 ECP-1 所示。默认情况下,下图中 ECP-2 显示的 3x2 布局格式为 ECP 的布局方式。编号为 0 和 1 的投影面分别跨度 30 纬度和 360 个经度值 360 经度,编号为 2、3、4、5 的投影面分别跨度 120 纬度和 90 经度。
- 特点:赤道圆柱投影方式的效果图如下图 ECP-3 所示。ECP 的 3x2 框架中编号为 2、3、4、5 的投影面内的图像展示效果较好,他们显示的是球面赤道附近的曲面区域,若球面赤道附近的曲面为重要的图像区域,则使用 ECP 的投影方式十分合适,但是在编号为 0、1 的投影平面内,ECP 投影将 ERP 两极区域的平面进行了压缩与拉伸,使得平面分布不均匀,并且上下两个片面间存在一条不连续的直线。
下面是 2022.06 月的知识图谱新增内容快照(图片被平台压缩不够清晰,可以加文章后面微信索要清晰原图):
2022.06 知识图谱新增内容