喜欢就点关注吧!
人的听力能够根据声音判断对方的性别、年龄或者来自哪个地方, 但是我们不能够判断出对方的面部特征。但AI可以,而且只需6秒。
麻省理工学院的研究院最新开发了一套只需听取声音即可重建说话人的面部特征的人工智能系统。这个名为Speech2Face的智能系统基于一个深度神经网络框架,通过收集数百万个YouTube视频中说话者的面部及其语音数据,训练他们识别声音和面部特征之间的相关性。
该团队在他们的论文中解释他们如何训练深度神经网络 - 一种模仿人类大脑非线性结构的多层人工神经网络 - 使用数百万个具有超过100,000个谈话头的互联网视频。 正是通过这些视频,团队的Speech2Face AI能够“学习”某人的面部特征与这些特征最有可能产生的声音之间的相关性。
论文地址:
https://arxiv.org/pdf/1905.09773.pdf
自我监督机器学习
虽然之前已经做过预测面部和声音之间关系的工作,但其中一个重大障碍是这些方法要求人类手动对音频输入信息进行分类和标记,将其与面部特征,性别或年龄等相关特征相关联。 然而这将是一个代价极高且耗时的过程 ,而且这种方法会限制预测面部属性输出。
为了克服这一局限,Speech2Face使用自我监督学习 ,这是一种相对较新的机器学习技术,自监督学习是监督学习的一个子集,其中训练数据由机器自动标记,通过识别和提取各种输入之间的连接信息,而不必明确地模拟这些属性。 这种方法特别适用于人工智能在动态和多样化环境中自行收集信息的情况,例如互联网上的信息。
除了自监督学习外,Speech2Face还使用VGG-Face模型, VGG-Face是一种现有的在大型人脸数据集上进行预训练的人脸识别模型。 Speech2Face同时还使用一个“语音编码器”,它使用卷积神经网络(CNN)来处理长度为3到6秒的声音片段频谱图以提取语音信号的音频信息。 然后通过AVSpeech (数百万个语音面对的数据集),经过单独训练的“面部解码器”获取该翻译信息以生成某人脸部可能看起来的预测版本。
可以看出该模型实验的预测输出与实际人物还是有一些差异,但总体而言还是有一些神似的地方的。即使某些人可能说两种不同语言,系统仍能够相对准确地预测面部结构甚至是说话者的种族。
正如团队所指出的那样:“我们的目标不是预测确切面部的可识别图像,而是捕捉与输入语音相关的人的主要面部特征。”最终,这种技术将在各种各样中有用一些情况,例如在电信中,其中讲话的人的重建图像或漫画化身可能出现在接收蜂窝设备上,或者在视频会议场景中。
但是麻省理工学院的研究人员在该项目的GitHub页面提出警告,承认该技术引发了关于隐私和歧视的问题。“虽然这是纯粹的学术调查,但我们认为由于面部信息的潜在敏感性,在文章中明确讨论一套道德考虑因素很重要,对此进行任何进一步调查或实际使用都将会仔细测试,以确保训练数据能够代表预期的用户人群。“
参考
https://thenewstack.io/speech2face-reconstructs-faces-using-only-voice-audio/
深度学习与Python,专注于深度学习、机器学习前沿知识与资讯