音视频知识图谱 2022.05

2022-06-13 12:59:05 浏览数 (1)

下面是 2022.05 月知识图谱新增的内容节选:

1)图谱路径:采集/视频采集/对焦策略

  • 手动对焦
    • 用户点击哪里就对焦哪里。
  • 自动对焦
    • 基于系统能力在识别场景发生变化后,进行一次中心对焦。
    • 如果有识别到画面从无人脸到有人脸时,做一次人脸对焦(这里是只做一次人脸对焦,不能一直跟着人脸对焦,这样可以防止用户不想对焦人脸的场景:在有人脸时,点击了其他地方进行手动对焦)。
    • 人脸对焦时,一般对焦两眼中间的点位效果比较好。如果能获取到比较精细的人脸识别点位信息,常取 43 号点位。
  • 手动对焦后,在满足这些条件时会切换到自动对焦
    • 前后摄像头切换。
    • 场景发生较大切换。比如,相机位移或晃动较大,外部光线敏感度变化较大等。
    • 画面中从无人脸变为有人脸。

2)图谱路径:采集/视频采集/指标优化/相机打开平均时长 相机秒开率

  • 优先使用 CPU 资源:优化相机打开速度,可以从业务层进行处理,优先将 CPU 资源让给相机,相机打开后回调给业务相机首帧已出的事件,这样业务收到该事件后再进行其它初始化

3)图谱路径:采集/视频采集/指标优化/预览平均采集帧率 图像处理帧率 渲染帧率

  • 线程模型优化
    • 采集和视频特效放在同一个线程,随着特效功能越来越强,计算越来越重,会影响到最终的输出帧率。
    • 多线程模型:采集线程、CPU 处理线程(跑一些 AI 模型)、GPU 处理线程(跑一些图像处理)
  • 采集与前处理数据交互优化
    • 采集到前处理的数据进行下采样,这样可以提升前处理模块的处理速度。
    • 视频数据对齐分辨率,防止多次采样消耗性能。
    • 视频数据对齐下采样的方式(RGB、YUV),防止多次数据格式转换消耗性能。
  • 减少 CPU 与 GPU 的数据拷贝
    • GPU 和 CPU 要尽量少做数据拷贝,性能比较差。可以使用系统能力来实现 GPU 和 CPU 的内存共享来做相关的优化。
    • Android HardwareBuffer 方案
    • iOS CVPixelBuffer 方案
  • 优化图像处理性能
    • 做图像的裁剪、缩放、旋转、尺寸变化时要注意优化性能。可以使用 libyuv 来做常规的图像处理,一些 libyuv 版本甚至做过汇编级别的优化来提升图像处理的性能。

4)图谱路径:音频算法/音频通话质量指标/音质

  • 平均意见得分(MOS,Mean Opinion Score),主观评价方法。测试人只听测试语音进行打分。
    • 优。4.0-5.0。很好,听得清楚;延迟小,交流流畅。
    • 良。3.5~4.0。稍差,听得清楚;延迟小,交流欠流畅,有点杂音。
    • 中。3.0~3.5。还可以,听不太清;有一定延迟,可以交流。
    • 差。1.5~3.0。勉强,听不太清;延迟较大,交流需要重复多遍。
    • 劣。0~1.5。极差,听不懂;延迟大,交流不通畅。
  • 失真平均意见得分(DMOS,Degradation Mean Opinion Score),主观评价方法。测试人知道原始语音。先听原始语音,再听测试语音,对差异进行打分。
  • 相对平均意见得分(CMOS,Comparison Mean Opinion Score),主观评价方法。测试人不知道原始语音。随机听原始语音、测试语音,对当前听的语音相对上一次听的语音的好坏进行打分。
  • ABX Test,主观评价方法。测试人已知 A 和 B,通过测试 X 来选择标记它是 A 还是 B。
  • 短时客观可懂度(STOI,Short-Time Objective Intelligibility),客观有参考评价方法。对纯净语音和待评价的语音进行比较从而得到评分,取值范围为 0-1。取值越高语音质量越好。
  • 语音质量的感知评估(PESQ,Perceptual Evaluation of Speech Quality),客观有参考评价方法。将一个带噪的衰减信号和一个原始的参考信号经过一系列比较处理得到 PESQ 分数,最终映射到 MOS 分数来反映语音质量。
    • 电平调整
    • IRS 滤波
    • 时间对准和补偿
    • 听觉变换
    • 提取信号时频特征评分
  • 感知客观语音质量评估(POLQA,Perceptual Objective Listening Quality Analysis),客观有参考评价方法。对 PESQ 的升级改进版。
    • 增加对宽带(Wideband)和超宽(SuperWideband)语音质量评估的能力,支持宽带(48khz)。
    • 支持最新的语音编码和 VoIP 传输技术,针对现有的 opus、silk 编码器进行过特殊优化。
    • 支持多语言环境,各国语言都支持。ITU 组织提供标准测试语料,可进行针对性测试。
  • 基于传输网络参数的无参考语音质量评估(E-Model),客观无参考评价方法。
  • 无参考语音通信网络的语音质量(NISQA),基于深度学习的客观无参考评价方法。
  • MOSNet,基于深度学习的客观无参考评价方法。
  • QualityNet,基于深度学习的客观无参考评价方法。

下面是 2022.05 月的知识图谱新增内容快照(图片被平台压缩不够清晰,可以加文章后面微信索要清晰原图):

2022.05 知识图谱新增内容

- 完 -

0 人点赞