机器之心报道
作者:泽南、张倩
最终,我们或许能让那些过去的人们,「亲自」为我们讲述他们自己的故事。
最近几个星期,一股由 AI 引发的「动起来」趋势席卷全网,各种让照片变视频的动画不时出现在各大社交网络的时间线上,有的还配上了音乐。
在层出不穷的应用之后,又有一个 AI 动图生成器脱颖而出,在线家谱服务公司 MyHeritage 提供的 Deep Nostalgia 服务可以为静态照片创建最佳的运动效果,成为了上个周末的热门事件。他们提供的工具有点像 iPhone 上的 Live Photos 功能,其可以自动生成几秒钟的视频,以帮助智能手机摄影者找到最佳拍摄角度。
不过与 iPhone 上基于多张照片合成加挑选的方法不同,Deep Nostalgia 可以让任何相机拍摄的内容「活起来」。该工具创造的短视频中,人物以 AI 训练过程中示例人物的动作摆姿势,其目的是帮助人们以全新的视角看看过去亲人的照片。
与那些以 app 形式存在的产品不同,使用 MyHeritage 图片工具只需在他们的网站上免费注册一个账户,然后上传照片就可以了(前几张免费)。图片处理的过程是完全自动化的。如果你的老照片分辨率有点低也不是问题——Deep Nostalgia 会自动对图像进行超分辨率等增强操作,然后才进行处理。
工具链接:https://www.myheritage.com/deep-nostalgia
另外还有人们担心的隐私问题,MyHeritage 表示,他们不会将用户上传的数据分享给任何第三方,另外未完成注册就上传的图片也会在处理之后立即删除,以保护你的隐私。
这样一个简单易用的工具突然出现,自然也成了推特等社区网友们手中的造梗利器,人们很快把 AI 带来的想象力发挥到了极限。既然是人工智能的产物,我们自然也要首先用它来「复活」一下祖师爷——现代计算机科学的先驱阿兰 · 图灵。就用那张最经典的照片试一试:
AI 完美还原了图灵充满智慧的眼神。
还有什么都说过的鲁迅:
中国第一位女性建筑学家林徽因:
还有更夸张的吗?如果四舍五入的话,罗马时代的雕像也算是人物,为了刁难 AI,有考古学家就使用了雕像的照片制作动图:
他就是公元一世纪时,古罗马帝国的安提诺乌斯(Antinous),我们应该感谢 AI 技术的高超,还是古典时代雕刻的还原度呢?
尽管脑补能力惊人,但 Deep Nostalgia 也有其限制:它只能处理单张图像的脸部,所以你无法期待深度学习在这里为你生成一个能走路的木乃伊出来。如果你已经尝试过超过五张图片,则必须注册账户才能继续「创作」。
不论如何,这无法阻止人们的脑洞大开。
当然对于 Deep Nostalgia 原来的初衷,网友们也表示了感谢。
「我的父亲 29 年前就去世了,当时我才几个月大。这是我第一次见到他动起来的样子,第一次看到他眨眼、微笑……」
除了让故人展现不一样的面貌,未来我们能否期待博物馆里的人物向我们讲述他们自己的故事?
MyHeritage 制作的亚伯拉罕 · 林肯动态视频(有声版)。或许在不久的将来,我们就能期待博物馆里的历史人物「亲自」为我们讲他们的故事了。
可能用到的技术
由于 MyHeritage 网站并没有披露这个深度怀旧项目究竟使用了哪些技术,想自己动手的研究者只能给出自己的一些猜测。
其中,比利时列日大学教授 Gilles Louppe 猜测他们是实现了三星 AI 中心 2019 年的一篇论文(《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》 。
在这篇论文中,三星和 Skolkovo 研究所的研究人员只用少量甚至一张图像或画作就合成了人物开口说话状态的头部动画。
具体来说,研究人员利用了 Few-shot 学习等技术,主要合成头部图像和面部 landmark。Few-shot 学习意味着该模型在仅使用几幅甚至一幅图像的情况下模拟人脸。研究人员使用 VoxCeleb2 视频数据集进行元训练(meta trainning)。在元学习过程中,系统创建了三种神经网络:将帧映射到向量的嵌入器网络、在合成视频中映射面部特征点的生成器网络以及评估生成图像真实性和姿态的判别器网络。
联合三种网络,该系统能在大型视频数据集上执行长时间的元学习过程。待元学习收敛后,就能构建 few-shot 或 one-shot 的神经头像特写模型。该模型将未见过的目标任务视为对抗学习问题,这样就能利用已学习的高质量生成器与判别器。
论文作者表示:「至关重要的一点是,尽管需要调整数千万参数,该系统能够因人而异地初始化生成器和判别器参数,因此训练可以在仅借助几幅图像的情况下快速完成。这种方法能够快速学习新面孔甚至是人物肖像画和个性化的头像特写模型。」
论文地址:https://arxiv.org/pdf/1905.08233.pdf
当然,也有人提出了其他想法,认为 NeurIPS 2019 的一篇论文(《First Order Motion Model for Image Animation》)比较接近。
这篇论文完成的任务是:给定一张图片和一个包含一系列动作的驱动视频,然后生成一段新视频,新视频中的人物是源图片中的人物,动作是驱动视频中的动作。
整个模型可以分为两个模块:运动估计模块和图像生成模块。在运动估计模块中,模型通过自监督学习将目标物体的外观和运动信息进行分离,并进行特征表示。而在图像生成模块中,模型会对目标运动期间出现的遮挡进行建模,然后从给定的名人图片中提取外观信息,结合先前获得的特征表示,进行视频合成。
- 论文链接:https://aliaksandrsiarohin.github.io/first-order-model-website/
- 项目链接:https://github.com/AliaksandrSiarohin/first-order-model
当然,以上只是两种不同的猜测,究竟哪种模型实现效果更稳定、更接近 MyHeritage 的实现效果,还需要大家自己动手尝试。
参考内容:
https://www.theverge.com/2021/2/28/22306097/ai-brings-still-photos-life-meme-twitter-geneaology-myheritage
https://mp.weixin.qq.com/s/b8MjrsSt4gNaNMsyHVqe1Q
© THE END
转载请联系本公众号获得授权