新智元报道
来源:Techcrunch
编辑:David
【新智元导读】去年,一款能让家庭老照片动起来的应用,它进化了!可以让老照片变成有声动画,发声内容还可以自定。只需10分钟训练视频,就能可以听照片中的人聊天了。
让人像老照片变动画,是什么体验?
让动画能说出你想听的话,又是什么体验?
去年,一款名为My Heritage 应用程序一度轰动,它能将经典的家庭照片变成栩栩如生的动态肖像。就像下面这样:
今年,这个应用背后的技术更进一步。能将静态照片转换为逼真的视频,并且能够说出你想说的任何话。
开发这个技术的公司叫D-ID, 这次推出的“会说话的活照片”可能看起来像过去几年已经声名狼藉的DeepFake,但背靠的基础技术实际上却大不相同,它的基本功能是不需要训练的。
D-ID最初亮相是在2018 年的TechCrunch Battlefield 上。近日在TechCrunchDisrupt 2021 上现场推出了新产品:会说话的活照片。
利用这项新技术可以产生很多新应用。比如生成一个可以表达各种情感的电视主播,可以为客户支持互动创建虚拟聊天机器人,可以开发用于专业培训课程, 还能搭建互动式对话视频广告亭等。
这款新产品的发布,让公司的应用程序一度冲上苹果 App Store 排行榜的榜首。
10分钟视频训练,生成会聊天的“活照片”
从技术角度来看,D-ID对让照片动起来的技术与最初的去识别方向相差并不远。实际上,公司创立初期的主要方向正是去识别。
D-ID 首席执行官兼联合创始人 Gil Perry对记者表示,公司选择新方向是因为,这类应用程序的潜在市场很大。
D-ID 首席执行官兼联合创始人 Gil Perry
Speaking Portraits 同时面向大小客户,任何人都可以从源图像生成全高清视频,还能录制的语音或输入文本。目前D-ID 正在推出支持英语、西班牙语和日语的产品,并计划在未来支持其他语言。
D-ID 目前提供了两种基础版本。
一种是使用单张静止图片制作的“单人像”,这种版本的头部是动画,其他部分是静止的。这个模式下只对照片中的现有背景有效。
另一种更高级的选项,需要先按照指导说明,提交所请求人物的 10 分钟的视频用于训练。这个高级模式能够适用于自定义、可交互的背景,并为人物的身体和手部提供一些预设动画选项。
下面就是第二种选项下生成的日文新闻播音员,是不是足以乱真?
Perry 这次在 Disrupt 现场的展示是根据他小时候的静态照片创建的。这张照片被映射到由一个人偶呈现的面部表情上,同时发出声音,让现在和年轻时候的Perry互动。
看看下面这两个人的表情有多像:
如何防止出现下一个Deepfake
一张照片就能生成有声视频,这可能听起来有点吓人。
过去几年,关于Deepfake生成假视频引发的道德和法律上的争议,已经出现了太多。业内也一直在努力,试图成功分辨AI生成的逼真的假视频。
对此,Perry表示,D-ID在“努力确保这项技术被用在好的方向,而不是坏的方向”,
为了实现这一目标,他们将在 10 月底与合作伙伴一起发布关于”透明度和同意书” 的承诺。目的是确保“用户不会对看到的内容感到困惑,且相关人员会表示同意。”
虽然 D-ID 希望在其使用条款和公众立场方面对滥用此类技术做出保证,但 Perry 表示,单靠他一家公司,是很难做到这一点的。他呼吁生态系统中的其他各方都应该联手,努力避免这类技术的滥用。
参考资料:
https://techcrunch.com/2021/09/23/d-id-launches-speaking-portrait-a-way-to-turn-photos-into-custom-photo-realistic-videos/?guccounter=1