随着深度学习的兴起,近年来不断有基于学习的图像视频编解码工作被提出,尽管距离大规模商用尚有距离(据该领域从业人员称,深度学习的编解码效果尚可,但计算量较大),但几乎你能想到的IT和互联网巨头都投入重兵研发,也许该领域正处于突破性创新爆发的前夜。
近日,知名移动通信和视频技术研发公司 InterDigital 开源了基于学习的压缩库 CompressAI,相信对于该领域的研究者会有一定帮助。
在其论文 CompressAI: a PyTorch library and evaluation platform for end-to-end compression research 介绍了这一开源库。
InterDigital 是谁?
InterDigital 是一家美国专注于移动通讯(3G、4G、5G及其演进等)和视频(H.264/H.265/HEVC及其演进)技术的研发公司,在这两个特别需要标准互通的领域,研发新技术并参与标准制定,但其并不实际生产产品,而是靠专利授权/诉讼获得收入。
说白了,InterDigital 是商业嗅觉敏锐、靠研发新技术申请专利并埋到国际标准里的纯研发公司。
站在食物链的最顶端,这家公司曾经与摩托罗拉、爱立信、诺基亚、华为、小米、高通等产业巨头发生诉讼。
CompressAI 是什么?
CompressAI 的出现是为了弥补PyTorch生态中并没有特别好的图像视频压缩研究库,该库实现了在压缩领域常用的操作、网络层和架构,实现了常见评价标准,并重新实现了业界的State-of-the-art算法,开放了预训练模型,为了促进该领域的发展。
该库目前包含的模型(部分模型是2020年才出现的):
使用该库可方便与以下传统方向比较算法效果:
其实现的模型与原作者工作的比较:
几乎完全复现了state-of-the-art的效果。
在Kodak数据集上该库实现的基于学习的编解码方法与传统的JPEG、WebP等方法的比较:
由上图可知,基于学习的方法相比传统方法在各码率段均具有明显优势。
在 Saint Malo 图像上的压缩结果可视化示例:
目前该库只提供了图片编解码的几个SOTA实现,不过作者称很快将加入视频编解码实例。
论文地址:
https://arxiv.org/pdf/2011.03029.pdf
开源地址:
https://github.com/InterDigitalInc/CompressAI/
TensorFlow竞品:
https://github.com/tensorflow/compression