本文来自IBC2020,介绍了一篇论文,这篇文章介绍了一种称为SUPERNOVA的解决方案,该解决方案由基于深度学习的方法组成,可以大大提高低质量媒体内容的质量。
随着媒体处理领域中的技术进步,各种类型的媒体服务引起了极大的关注,对媒体内容的可访问性增加,并且对消费高质量媒体内容的需求也增加。但是仍然存在许多需要增强的低质量媒体内容。
媒体内容低质量主要是由于冗长的编码过程中的量化,而且 当客户位于传输带宽变窄的地方时,这种降级变得更加严重,因为在这种环境下,编码媒体内容的比特流的比特率变得更低。另一个恶化的情况是,所交付的图像/视频的分辨率太低,客户无法使用其FHD或4K显示器观看。
从本世纪10年代中期开始,基于深度学习的方法已应用于计算机视觉和媒体处理领域,以提高质量,但这需要大量的GPU计算能力,随着GPU成本逐渐降低,深度学习网络的复杂性将会逐渐增加。近期IBC发布的一篇论文提出了一种名为“ SUPERNOVA”的解决方案,该平台使用基于深度学习的媒体处理方法来提高媒体内容的视觉质量。媒体内容可以通过API传递到SUPERNOVA平台,或者可以在当前具有GPU的本地计算机中选择性地实现SUPERNOVA中的一种方法。
当前的SUPERNOVA平台包含上采样模块(也称为超分辨率),HFR模块(高帧率)和重新定向模块。这些模块都具有深度神经网络,且网络具有可升级的超参数集。每个功能模块都可以通过“控制参数”进行串行连接以实现更好的性能。例如,可以在上采样模块或重新定向模块之前调用HFR模块。在SUPERNOVA中应用每种模块后,客观和主观表现都得到明显提高。
接下来我们介绍一下各个模块:
- 上采样模块
对于SUPERNOVA,该模块首先引入了预处理以有效地准备训练数据集,然后提出了一种新颖的深度神经网络以提高性能。
当前大多数super resolution研究中使用的数据集通常都是无失真的样本,与媒体服务的实际内容大不相同。视频内容通常使用有损视频编码器进行压缩,因此不可避免地会出现量化损失。此外,对于真正的媒体服务,应注意深度神经网络的复杂性。因此提出一种在训练网络时使用来自媒体内容提供商的实际数据的方案。具体网络结构如下图所示
- HFR模块
高帧率(HFR)可以通过在两个现有连续帧之间生成中间视频帧来提高视觉质量。通常,在精确内插快速运动帧时,HFR是一个非常具有挑战性的问题。文章中介绍了一种基于长短期记忆(LSTM)和基于卷积神经网络(CNN)的HFR方法,可以通过有效地捕获快速局部和全局运动的时间动态来准确地插补快速运动帧,学习如何在两个连续的输入帧(上一个帧和下一个帧)之间生成一个中间帧。HFR模块的体系结构如下图所示
- 重新定向模块
该模块将宽高比固定的原始图像/视频转换为所需比例的重新缩放图像或视频。与在原始图像/视频上应用线性缩放方法相比,这可以最大程度地利用显示器,并最大程度地减少失真的感觉。提出的方法是将重新定位的网络与用户的内容消耗情况作为控制参数一起使用, 换句话说,SUPERNOVA中的重新定向模块为用户提供了重新缩放的图像/视频,而不会造成视觉损失,无论各种显示器的纵横比和观看模式如何。
所提出的重新定向方法由显着性检测部分和调整大小的操作部分组成,这些部分考虑了显示器的纵横比和用户的观看模式。
完成所有这些步骤后,图像/视频质量将显着提高。
附上论文阅读和下载链接:
https://www.ibc.org/technical-papers/introduction-to-supernova-a-deep-learning-based-image/video-quality-enhancement-platform/6772.article?adredir=1