当前的图像隐写技术主要集中在基于载体图(cover image)的方法上,这些方法通常存在泄露隐藏图(secret image)的风险和对退化容器图(container image)不鲁棒的风险。
受到最近扩散模型(diffusion models)发展的启发,我们发现扩散模型的两个特性,即无需训练即可实现两张图像之间的转换以及对噪声数据有天然的鲁棒性。这些特性可以用来增强图像隐写任务中的安全性和鲁棒性。
对于扩散模型的选择,我们选择开源的文生图大模型Stable Diffusion,并充分利用了来自开源社区的最新工具,如LoRA和ControlNet,以提高容器图像的可控性和多样性。
总之,我们提出了一个新颖的 无载体图像隐写 框架,名为可控、鲁棒和安全的图像隐写(Controllable, Robust and Secure Image Steganography,CRoSS),与基于载体图的图像隐写方法相比,在可控性、鲁棒性和安全性方面具有显著优势。而且这些优势是在不进行额外训练的情况下获得的。
据我们所知,这是 首次将扩散模型引入图像隐写领域的尝试 。在实验部分,我们进行了详细的实验,以展示我们提出的CRoSS框架在可控性、鲁棒性和安全性方面的优势。
图1:我们提出的无载体图像隐写框架CRoSS
融合了DDIM确定性采样以及扩散模型本身无需训练的图像转换(image translation)能力,我们设计了如图1所示的无载体隐写框架CRoSS。
在藏图阶段(hide process) ,我们通过两个不同的文本描述(又叫做private key和public key)实现隐藏图到容器图的转换,这也就相当于无需载体地将隐藏图藏匿到了容器图中。
在解图阶段(reveal process) ,我们利用藏图阶段的两个扩散过程的DDIM逆过程尝试从容器图逆转回原隐藏图。
在整个框架中,DDIM的确定性可逆采样保证了隐藏图和解码图(revealed image)的一致性;而前后两个阶段的文本描述又可以认为具有公钥和私钥的作用,公钥可以公开给网络上的所有用户,但是一旦不知道私钥的文本描述是什么,则无法解码出正确的隐藏图。
图2:不同方法的安全性指标比较
表1:不同方法的容器图主观质量比较以及防御检测的安全性比较
实验方面,我们首先展示我们提出的CRoSS在安全性上的优势,由于CRoSS是无载体的图像隐写方法,所以其容器图中几乎没有任何可以作为检测的线索存在,所以在对抗检测算法的安全性指标上有极大的优势,详细的实验结果见图2和表1。
图3:针对不同种退化的不同方法的鲁棒性的定性比较
表2:针对不同种退化的不同方法的鲁棒性的定量比较
我们提出的CRoSS在面对遭受多种退化的容器图时依然表现了极强的鲁棒性,不论是主观结果还是客观指标上都有着明显的优势,这得益于扩散模型本身对噪声数据的强大鲁棒性,详细的实验结果见图3和表2。
关于论文
相关论文已经被Advances in Neural Information Processing Systems (NeurIPS 2023)录用,作者是北京大学深圳研究生院信息工程学院视觉信息智能学习实验室(Visual-Information Intelligent Learning LAB,简称 VILLA )的余济闻、张轩宇、许佑民和张健助理教授(通讯作者)。 VILLA由张健助理教授在2019年创立,致力于AI内容生成与安全、底层视觉、三维场景理解等研究方向,已在CVPR、ICCV、ECCV、NeurIPS、ICLR、TAPMI、TIP、IJCV等高水平国际期刊会议上发表成果50余篇。近年来,VILLA在图像合成与编辑领域发布多款爆火技术和产品,包括T2I-Adapter、DragonDiffusion、FreeDoM。其中T2I-Adapter已被AIGC领域的独角兽公司Stability AI与其旗舰模型StableDiffusion-XL结合,推出涂鸦生成产品Stable Doodle。 Jiwen Yu, Xuanyu Zhang, Youmin Xu, Jian Zhang. CRoSS: Diffusion Model Makes Controllable, Robust and Secure Image Steganography. Advances in Neural Information Processing Systems (NeurIPS), 2023. 论文链接:https://arxiv.org/abs/2305.16936 开源代码:https://github.com/vvictoryuki/CRoSS VILLA实验室主页:https://villa.jianzhang.tech/ 作者:北京大学,余济闻