作者 | eEhyQx
出品 | AI科技大本营
现象级大作《赛博朋克2077》终于没有跳票顺利发布了!你通关了吗?
来自上海科技大学的学生社团GeekPie打造了一款全新的“滤镜”,CyberMe。只需上传一张照片,一秒将你带入夜之城!
上传一段简短的视频,你还可以让它动起来……
据悉,这项工作使用了与几个月前火遍国外的Toonify使用了相同的技术栈。
迁移学习
迁移学习是指将一个预训练模型重新应用在另一个任务中,往往能有减少新模型训练时间的作用。
团队首先利用赛博朋克2077的捏脸模块随机生成了500个角色,作为StyleGAN2的输入在FFHQ预训练模型的基础上展开迁移学习。
由于使用了迁移学习技术,只需要在一般人就能拥有的RTX 2080上训练4个小时,StyleGAN模型能够输出较为赛博朋克风格的图像。
模型融合
由于StyleGAN的结构,不同层的网络能够在不同程度上影响最终的输出结果。大体可以总结为,低分辨率的层将显著影响最终输出的结构,高分辨率层则决定了材质以及光影细节。
团队将迁移学习得来的模型与FFHQ原模型融合,FFHQ预训练模型与迁移学习得来的模型分别提供网络的低分辨率层与高分辨率层。融合网络能够弥补由于数据量小、训练时间短而造成的模型质量不佳问题,以达到更加真实的效果。
此时,通过使用StyleGAN Encoder寻找某个人在StyleGAN FFHQ模型中latent code的方式,融合后的模型已经能够根据一张人像输出对应的赛博朋克风人像。但由于整个Encoder过程本质上是一步使用VGG的优化,1000次迭代的优化往往需要数分钟时间,十分缓慢,无法同时处理大量请求,这也是Toonify项目最初下线的原因。
Pix2PixHD
Pix2PixHD网络与StyleGAN同样是由英伟达提出的,面向处理由一张图像转变为另一张图像的任务。Pix2PixHD具有不错的实时性,但在生成质量上不及StyleGAN。
为了解决生成速度这一问题,团队利用现在的StyleGAN预训练的FFHQ模型与迁移学习融合后的模型生成了50000张“真人-赛博朋克”风图片对,并以此作为训练数据,训练了一个Pix2PixHD网络。
在经过长达12小时左右的训练后,整个Pix2PixHD能够逼近StyleGAN的效果,并且在1秒内完成生成运算。
其他问题
因为游戏捏脸环节光照与环境与真实环境略有差异,Pix2PixHD生成结果与原始输入人脸的肤色与光照等略有出入。为了解决这个问题,团队使用直方图均衡等传统数字图像处理手段将不同通道强度与原图相匹配,使得输出图像与原始图像在颜色与亮度分布上与原始输入人脸相近,以达到贴近真实人脸的效果。
由于用于训练的数据由《赛博朋克2077》游戏的捏脸系统随机生成,故质量有限。开发者也在网站开放了“帮助我们变得更好”的按钮,邀请使用者提交自己在游戏中完成的捏脸作品。
目前,这项工作已经上线至https://cyberme.geekpie.club,同时支持油画、浮世绘、卡通立绘、兵马俑等多种风格,并将持续更新。
技术交流请邮件:pie@geekpie.club
参考链接:
https://cyberme.geekpie.club
https://arxiv.org/pdf/2010.05334.pdf