北京中轴线历经逾7个世纪的历代承续,跨越千百时光。其秩序井然、气势恢宏的城市建筑群不仅是中国古代建筑艺术的杰出代表,更是彰显中华文明文化传承的灵魂纽带。中轴线申遗成功之际,学习强国围绕“北京中轴线”上线“老照片里的北京记忆”互动玩法,穿越百年时光,腾讯云音视频以AI老片修复技术,复原了100多年前拍摄留存的北京中轴线老照片。
数字技术让图像新生
唤醒老照片里的北京记忆
腾讯云音视频修复了钟鼓楼、景山、故宫、天坛、永定门等北京中轴线上重要节点的15张老照片。这些照片大多拍摄于19世纪初,年代久远,如今颜色已经泛黄失真,噪点、划痕、污渍等问题也让这些照片的观感质量大幅下降。腾讯云音视频结合前沿的AI深度学习算法,通过数据驱动的自动建模和基于AI的媒体处理,消除照片中的噪点、压缩伪影、去除模糊和增强细节,提高色彩质量,帮助老片翻新。修复后的老照片让百年前的北京中轴线重获新生,画面整洁、颜色典雅、纹理细腻。让我们能够一“键”穿越百年,从老照片中回味北京中轴线的古韵今风,感受它的不朽魅力。
本次项目,腾讯云创新采用基于DiT(Diffusion Transformer)的模型,结合扩散模型和Transformer架构的优点,通过一系列精心设计的步骤,有效地修复了老照片。
整个过程包含以下关键步骤:
1. 对老照片进行包括自研模型的自适应去噪和局部对比度增强在内的一系列预处理操作。这些步骤有助于减少图像中的噪声和提高图像的清晰度,为后续的修复工作打下基础。
2. 将预处理后的图像输入到扩散模型中,基于扩散模型迭代式细节生成和修复能力,利用逐步加噪过程的图像先验知识,通过将退化数据融合controlnet的训练策略,进行丰富而真实稳定的细节修复和增强。
3. 充分利用Transformer架构的优势,通过捕捉图像中的长距离依赖关系,以生成更准确细致的图像内容。通过自注意力机制更精准的融合长距离语义特征到当前像素区域,不仅能够捕捉图像中的全局信息,还能生成像素级别的真实图像。
4. 在实际训练过程中,通过采用多步混合退化方式增强模型的生成能力。这种方式可以使模型在训练过程中更好地学习损坏图像的生成过程,并保留了原图像的忠诚度。此外,我们的训练损失函数除了包含均方误差之外,还采用了感知损失。感知损失有助于模型生成的图像在视觉上更接近真实图像。
5. 推理阶段,考虑到DiT模型的大量显存占用,对大分辨率的照片采取分块(tiled)方式处理,保证在有限显存条件下,也能顺利地修复大分辨率的照片。
景山北望中轴线老照片修复前后对比
钟楼老照片修复前后对比
故宫老照片修复前后对比
天安门老照片修复前后对比
天坛老照片修复前后对比
永定门老照片修复前后对比
更多场景,焕新视听体验
腾讯云音视频画质增强修复技术
除了老照片外,众多珍贵的老影像也由于拍摄条件所限或者时间久远等原因出现了很多视听体验不佳的情况:一是黑白的影像难以还原当时情景;二是当年拍摄设备的白平衡、颜色校正技术落后,导致影像画面偏黄、泛白等;三是划痕、雪花点、噪声、失真等问题严重影响观感质量。针对这些问题,腾讯云音视频在经典影像修复的过程中,探索了一套较完整的基于AI的画质增强修复技术流程,能够有效消除片源中的噪点和压缩效应,增强细节去除模糊,提升色彩质量,并解决由于分辨率和帧率低导致的卡顿不清晰等问题,为老影像带来全新视听体验。
除了经典老片修复场景外,腾讯云音视频的画质增强修复方案在电商直播、秀场直播、游戏赛事直播等场景中也有广泛应用。电商场景中,画质增强修复技术可在提升画质的同时,降低10%以上的码率,改善卡顿/秒开等QoS指标,提升观看流畅性。同时,该技术可增加商品/主播的清晰度,凸显产品细节,为观众更好地展示产品,提升购买意愿。在秀场场景,方案专门优化模型,不影响主播自身美颜的同时,有效增强人脸细节画质。方案还可智能检测画质/噪声等级,自动开启/关闭,有效节省成本。游戏场景中,画质增强修复技术能够有效提升复杂游戏画面画质,弥补游戏赛事跨洲传输导致的源流码率受限、清晰度不高的问题。
画质估计和修复
画质估计和修复的工作,主要是针对一些本身带有噪声和被压缩的视频帧进行修复和增强。若不经过这部分的处理,直接做譬如清晰度和纹理增强、色彩增强的操作,有机会放大噪声和伪影。反过来,若不管视频本身质量,一律统一进行去噪声和压缩的处理,也会导致细节丢失的问题。腾讯云音视频提出的CRESNET,是一种有估计的压缩恢复方法,针对压缩受损情况进行估计,提取质量估计网络中间层特征融合到恢复网络中进行指引,提升不同压缩程度的恢复效果。
清晰度增强
清晰度增强重点考虑如何增强细节和纹理,达到去模糊和更加清晰的目的,但是一定要同时兼顾到即使是较好的源也可能会有轻微的噪声,这些噪声若完全不理会,还是会被一起增强。我们通过采集用户场景真实视频用大模型进行增强以及多退化低质数据生成来提高算法泛化性的双向方案来自适应场景,融合多分辨率网络来提高细节,并增加主观判别器来提高人眼感受。另外,由于人眼对人脸和字体区域变化的敏感性,方案还针对性地融合高级语义信息来对这些部分进行优化。
色彩增强
针对色彩黯淡等经典影像常见问题,腾讯云音视频提出的方法是通过亮度、对比度和饱和度三个维度来分别进行色彩增强。腾讯云音视频色彩增强模型直接用参数回归来简化强化学习的思路,使得训练更容易收敛,而且这样的成对数据集也更容易获取,只需要对高质量色彩图分别进行亮度、对比度和饱和度的随机退化。训练时,色彩退化图可以下采到小尺寸提升运算速度。我们通过结合全局色彩特征和语义特征,固定操作顺序,做全连接回归来依次预测图像操作亮度、对比度、饱和度的增强参数,这样整体效果会更加稳定可控。我们还在方案中引入场景和语义相关的信息,通过分割或分类模型提取语义特征,融入到色彩特征里统一进行分析,并提出采用non-local的Transformer结构融合不同区域在色彩调整上的相互作用来提高模型的局部色彩调整能力,从而提升不同应用场景里各种局部偏色和色彩退化的调整能力,使的它能更好的在真实视频应用场景上进行色彩增强。
时空域超分增强
我们也在探索结合空间域和时间域两个维度,同时做超分和插帧。通过互相融合两个网络的深度特征,进一步来提高时空域的超分效果。
我们针对基于可行变卷积的Zooming in时空超分网络进行改进,提出了(a)采用3D可形变卷积,它是在2D的基础上改进,从学习本特征的9个offset 改进为学习相邻特征帧的3*3*3共27个offset。可以灵活选择27个点的位置,这27个offset可以是在同一特征图上也可以分布于不同特征图中,这使其相较于2D更加灵活。也可以更好地应对场景切换,在切换时不会强行从切换帧中找特征,而是可以动态的选择从本帧以及上一帧中选择更多的相似特征。(b)训练过程首先使用生成对抗网络训练一个纯超分网络,在超分网络训练好后固定其参数。使用相同数据集抽帧组成时空超分数据集,训练时候除了常用损失函数之外,使用训练好的超分网络对完整输入数据进行推理,提取去中间帧特征作为输出,约束时空超分网络。如下图所示,本方案可以通过跨任务的蒸馏策略实现在推理参数不变的情况下,提高时空超分辨率网络的效果。
目前,腾讯云在画质增强修复方面的技术成果已通过腾讯云媒体处理(MPS)面向广大开发者开放。开发者接入腾讯云媒体处理(MPS)服务后即可获得老片修复、插帧、超分、人脸增强、色彩增强等音视频增强能力,实现画质重生。腾讯云媒体处理(MPS)还具备全球领先的自研智能编码内核,核心视频处理引擎拥有超百项新一代国际编解码专利,在编码技术、实时音视频画质增强、媒体框架开放性以及生态等方面均具备领先的优势,支持音视频转码、音视频增强、视频截图、内容理解、内容审核等功能,满足企业各种场景下对视频的处理需求。结合AI能力,腾讯云媒体处理(MPS)可根据不同视频场景实现动态编码,在不损失视频主观画质的情况下,为企业节省50% 存储及带宽成本。
如果您想要进一步了解或使用腾讯云相关能力,欢迎扫描下方二维码添加音视频小姐姐微信,我们将安排产研同学专门跟进您的需求。
腾讯云音视频在音视频领域已有超过21年的技术积累,持续支持国内90%的音视频客户实现云上创新,独家具备腾讯云RT-ONE™全球网络,在此基础上,构建了业界最完整的 PaaS 产品家族,并通过腾讯云视立方 RT-Cube™ 提供All in One 的终端SDK,助力客户一键获取众多腾讯云音视频能力。腾讯云音视频为全真互联时代,提供坚实的数字化助力。