本文是来自alliance for open media research symposium2019的演讲,作者是来自于UT Austin的PhD,Li-Heng Chen。本次演讲主要讲述如何在感知上优化深度图像压缩。
Li-Heng Chen这次的工作是基于Ballé’s BLS2017 model进行的改进。在演讲中,Li-Heng Chen提出了他最初的想法:将经过预训练的网络作为VMAF的代理:
- 用一个简单的网络根据给定的ref./dis. patches来预测VMAF分数,指导Ballé’s BLS2017 model进行深度图像压缩;
- 将预训练的ProxIQA网络作为损失函数。
但这样的做法存在一些问题:
- 训练图像数据集的失真类型与需解决的问题不符合;
- 它会产生adversarial examples,预测出的VMAF分数会随着训练不断提高至100分。
为了解决这些问题,Li-Heng Chen提出了一种替代的学习框架,将Ballé’s BLS2017 model和ProxIQA网络连接在一起,固定ProxIQA网络,在综合考虑两个模型分别的像素和码率两个维度的损失的情况下调整整体网络的损失函数,以此来训练出一个适用于此应用场景的网络模型。
最后,Li-Heng Chen给出了方法在Kodak dataset上不同情况下的BD-rate和一些主观实验结果,展示了其为深度图像压缩带来的优化。