人工智能与机器学习是合成语音的强大工具。无数研究表明,在最先进的模型中,只需几秒钟就可以精确地模仿受试者的声音韵律和语调。例如,百度最新的深度语音服务可以用3.7秒的音频样本克隆一个语音,7月份的一篇研究论文发布的克隆实现只需要大约5秒。
这一领域的快速发展激励着刚从黑莓和Hipmunk公司工作不久的前Magic Leap首席软件工程师Zohaib Ahmed,他与Saqib Muhammad共同创立了总部位于安大略省的like AI。两人试图将用于语音合成的领先机器学习模型调整为可伸缩的,目的是构建一种能够从相对较小的数据集中克隆语音的服务。而在推出语音合成产品的同时,他们还推出了一种检测深度语音伪造的工具。
两位创始人很有先见之明,他们意识到,像任何能够创造令人信服的合成音频的工具一样,他们的平台也可能被恶意者滥用。据总部位于阿姆斯特丹的网络安全初创公司Deeptrace称,“深度语音伪造”正在成倍增长。在6月和7月的最近一次统计中,它发现了14,698个网络上的深度伪造视频,比去年12月的7,964个有所增加,仅在7个月内就增长了84%。因此,该团队几个月前发布了一个名为blyzer的深度语音伪造检测工具,能够通过提取语音样本的高级表示方法,预测辨别真实还是生成。只要给定一个语音文件,它就可以创建一个包含256个值的摘要向量,该向量可以总结语音的特征,使开发人员能够比较两种语音的相似性,或者推断出在任何给定时刻谁在说话。
开发者有义务保证自己的孩子不被坏人利用,该公司的两位创始人表示:“作为研究人员和企业家,我们考虑过我们所创造的东西对社会的好处和风险。当你在我们的平台上发出自己的声音时,我们会采取一切必要措施来维护声音的所有权,确保你的声音不会被滥用。”