干货 | 清华大学郑方:语音技术用于身份认证的理论与实践

2018-12-11 16:04:08 浏览数 (1)

本讲座选自清华大学语音和语言技术中心主任郑方教授近期于清华大数据“技术·前沿”系列讲座上所做的题为《语音技术用于身份认证的理论与实践》的演讲。

以下为演讲的主要内容:

郑方:今天,我所讲的关于语音技术用于身份认证的理论与实践,主要分为两个方向:

  • 一是更高的安全保障
  • 二是更低的隐私泄露

内容则分成四个方面:

  • 一是身份认证的技术要求
  • 二是语音信号的特点分析
  • 三是安全保障和隐私保护
  • 四是语音处理技术的实践

一、身份认证的技术要求

1. 网络空间身份认证

“网络空间身份认证”事关新时代的国家安全、经济安全、社会稳定、民众福祉等,这其中包括五个方面:

  • 一是网络空间已成为国际反恐新阵地
  • 二是网络安全风险向更多终端蔓延;
  • 三是信息资源共享开放面临认证瓶颈;
  • 四是个人信息倒卖助长“黑色产业链”;
  • 五是认证漏洞威胁公民财产生命安全。

2. 身份认证的三个层级

网络空间身份认证分为三个层级:第一层级是实名;第二层级是实证;更高的层级是实人,即人本身必须是真实的。

3. 各国政府解决方案和路线图比较

各国政府解决方案和路线图也各有不同,欧美等发达国家在这方面早有布局。

比如,欧盟于2006年发布了《2010年泛欧洲eID管理框架路线图》(eID即电子身份证),计划用五年实现欧洲联盟电子政务的身份管理。

美国于2011年发布了《网络空间可信身份国家战略》,计划用十年的时间,建设一套公民的身份认证生态体系。

中国起步比较晚。2013年底,中国通信标准化协会专门设立了“网络空间身份管理标准工作组”,公安部三所正在牵头制定30多项eID国家及行业标准。

另外,公安部一所在2016年研发了“网络可信身份认证服务平台”,每个人都可在网上生成终生唯一编号的“身份证网上副本”;同时,由公安部一所牵头,清华大学也参与共建了多维身份识别和可信认证国家工程实验室。

2012年7月,为了满足市场需求和应付网上验证的要求,线上快速身份验证联盟(FIDO)成立。它主要通过两个子协议实现安全的登录,第一个协议UAF(通用认证框架),支持指纹、语音、虹膜等生物特征识别;第二个协议U2F是关于使用PIN和USB棒或者支持NFC手机的认证协议。

4. 生物特征(生理特征 行为特征)

我们发现,不管是中国公安部一所还是FIDO联盟,都已经开始考虑使用生物特征。那么什么是生物特征呢?生物特征分为生理特征和行为特征。其中,生理特征包括指纹、人脸、虹膜、掌纹、DNA等,生理特征的最大特点是从出生到去世基本不变

第二类特征是行为特征。它既有生理方面的一些特征,同时又有一些行为方面的特征;比如,签名、步态、声纹。

可以参考的第一个事件是去年12月26号在广州市的南沙区推出的微信身份证“微证”,第二个事件是江西共青城做的一个网络电子身份标识的手机贴膜卡(SIMEID)。

5. 公民关注的焦点

公民关注的焦点主要分为两个方面:

  • 一是生物特征的安全性——防攻击性能如何?
  • 二是生物特征的隐私性——生物特征丢了怎么办?

所以,网上出现一句话“丢脸即丢人”,这是最大的问题。

我们发现生理特征具有很多类似的特点,即不可撤销性。比如,虹膜是不能防攻击的。

同时,指纹识别、人脸识别也具有不能防攻击的特性。

刷脸也存在安全问题,只需采用一些传统方法,就可以轻易攻击某些基于AI安全手段的系统。

欧盟于今年5月25日发布了一个GDPR条例,即通用数据保护规范。它是对我们企业影响非常大的条例,不仅是适用于欧盟的组织,而且适用于在欧盟拥有客户和联系人的组织;只要跟欧盟有关系,它都会保护,所以对产业具有非常巨大的影响。

无监督身份认证的技术要求包含五个方面:

  • 一是人证合一性,用来进行身份认证的特征,一定要具有唯一性,并且识别技术要有准确性;
  • 二是不易伪造性
  • 三是意图真实性
  • 四是证据可溯性
  • 五是认证便宜性

二、语音信号的特点分析

语音特征具有的优势包括:

  • 第一,语音获取自然、方便,易于接受;
  • 第二,语音采集和传输成本低廉,使用简单;
  • 第三,用户交互性强,易防止假冒闯入;
  • 第四,可以结合业务
  • 第五,可以体现用户真实意图

它的劣势包括:

  • 一是不直观,看不见摸不着;
  • 二是时变性,随着年龄等会有变化;
  • 三是弱可获得性,不同于人脸可以从身份证系统获得,声纹每次需要预留;
  • 四是弱抗噪性,类似于手指(指纹)脏了。

总结一下,语音主要有以上三个比较突出的特点。

上图是计算机眼中的语音。

语音信号是一维信号,形简意丰,包含很多丰富的信息。比如,语音内容、说话人、语音、性别、情感等。

如上图所示,语音信号包含多层信息。第一层面是语言信息,句子、句式、焦点、因素等都可以在其中体现出来;第二层面是副语言信息,包括音高、音质量、语调等,蕴含了说话人的态度、情感、意图、方言等等多方面信息;第三层非语言信息,比如健康状况、性别、年龄等。

身份识别是指对人的身份通过语音信号中所蕴含的信息来进行判别的自动化技术。

总体来讲,可以分为四类:

  • 第一,声纹辨认。判定测试语音属于目标说话模型集合中哪一个人。辨认是“多选一”的 “选择”问题;
  • 第二,声音确认。确认测试语音是否来自所声明的目标说话人。确认是“一对一”的“判别”问题;
  • 第三,说话人检出。判断测试语音中是否存在目标说话人;
  • 第四,检出的扩展。判断目标说话人在测试语音中的发音位置。

第二种分类方法是按照说话内容的限定性,分为:

  • 文本相关
  • 文本无关
  • 文本提示

所谓文本无关是指声纹识别系统对发音内容无任何要求,说话人可随意录制或发音一定长度的语音;所谓文本相关是指声纹识别系统要求说话人必须发音事先指定的文本内容;所谓文本指示是指声纹识别系统从训练文本库中随机提取若干词汇组合后提示用户发音的文本内容,一般需要结合ASR。

对于声纹确认性能的评价,我们会使用到EER 和DET曲线。DET曲线由两个坐标组成,横坐标是FAR,纵坐标是FRR,FAR是指错误的预警、错误的接受,与安全性对应;FRR是指错误拒绝,与用户体验对应。当两个错误率相等时,即FAR=FRR,称之为等错误率(EER)。等错误率可以平均地表现系统的好坏,衡量的标准是等错误率离原点越近系统越好,离原点越远系统越差。

同时,我们也会用到检测代价函数(DCF),DCF值是FAR和FRR的加权和。DCF值将FAR和FRR不同重要性量化,值越小,系统性能越好越好。

声纹识别辨认有两种:

  • 一是开集声纹辨认
  • 二是闭集声纹辨认

对于声纹识别的技术发展历程,我们可以按照两个维度来看,一是特征域,二是模型域,每个域的发展都经历了非常漫长的过程。

现在比较多的模型是GMM—UBM,它将GMM(高斯混合模型)和UBM(通用背景模型)放到一起来进行说话人识别,提高了准确率。

说话人识别技术经历的很多发展基本很多都是利用了一个概念,即Supervector(超向量)。

说话人识别需要解决的问题非常多,可以分为三类:

  • 第一是环境相关的鲁棒性,包括背景噪音、跨信道、多说话人;
  • 第二是说话人相关的鲁棒性,包括身体条件变化、年龄变化、说话方式变化;
  • 第三是应用相关的鲁棒性,比如防假冒攻击、短语音的用户体验、真实意图检测、语音编码兼容性等。

三、隐私保护和安全保障

我们发现,身份认证其实涉及了安全性和方便性的一对矛盾共同体。有时候完全强调方便性不行,完全考虑安全性也不行。

声纹识别系统的常见攻击手段分为直接攻击和间接攻击,可能的攻击点存在8个方面,如上图所示。

常见的攻击手段有四类:

  • 第一类叫声音模仿
  • 第二类叫语音合成
  • 第三类叫语音转换
  • 第四类叫语音重放

其中,声音模仿是模仿说话韵律和说话风格,未见研究证明其具有显著威胁性,暂无防御的必要性。

语音合成是合成特定说话人的语音。一方面,可以通过参数合成方法,估计关键参数;另一方面,可以通过发声器模型,人工制造语音发生攻击。

语音合成和语音转换都要通过一个计算机系统把声音生成出来,然后再播放。这个放的过程和录音重放是一样的,所以从研究的角度讲,只要把录音重放检测做好了,其他的问题便都可以解决。

实际上,录音重放的检测有很多方法可以做到。比如数据追踪,即对比当前语音和历史验证语音是否存在相同声纹水印。

所谓信道检测是指检测模型预留和识别测试之间的信道差异。

如上图所示,既有信道模式噪音,又有远场混响。

基于倒谱分析设计各类特征,区分重放前后的语音,不同子频带具有不同的录放检测功能。

还有一种方法是利用活体检测麦克风所接收的语音是来自真人发音还是机器放音。

第一个方案是喷麦现象的检测。比如,任何一个正常人说话,都会有“噗”的声音。但是如果是录音机放的声音,就没有喷麦现象。

更复杂的是通过多普勒雷达,人在正常说话的时候,嘴巴一张一合,口腔中有不同的反射。用一个发射器发出20K赫兹的信号,出来之后,如果这边是真人在说话,信号经过口腔的反射,接收到的反射频率不一样,老在变;但如果是录音机放的声音,就没有这个变化。

所以,我们发现不管通过软件还是硬件,声纹的防攻击都是低成本。

我们总结一下发现,应对直接攻击的对策是用录音检测,间接攻击的对策是加强软件安全,修复系统漏洞。

声纹的防攻优势,一是特征提取,体现了多层。我们在特征提取信号域要进到频率域,做一些处理,最后再到倒谱域,这才取得的第一道特征。

最近的JFA、i-vecter等是基于来自GMM-UBM的超向量。

防攻击的第一个是基础策略,综合利用语音识别和声纹识别。

第二是增强策略,比如录音检测、用户自定义密码等。

唇语有语音的信息、身份的信息,并且和语音很像,唇语和语音结合起来就是双特征双活体检测

什么叫被知情?如果没有用户真实意图检测的话,会出现上图所示的场景:“老公,看一眼手机呗”。如果“老公”一看,就会刷脸支付。

语音的特点是非常方便,它是更高安全,更低成本和更低隐私的声纹 的结构。

除了虹膜在人证合一准确率方面是最好的之外,声纹在不易伪造、意图真实、证据可追溯、认证便宜方面都是最好的,符合性最大。

上表是我们把各种不同的生物特征进行的一个比较。其中,声音的隐私风险最低。用一句话表达的话,便是“失声(音)不失身(份)”。

“声纹 ”方案有三个特点:

  • 一是高精度
  • 二是高安全
  • 三是低隐私

为什么有这三个特点呢?因为有三个方面的原因。一是语音信号本身的特点;二是语音算法的优势;三是低的成本。低的成本包括信号本身的采集和传输,也包括计算成本都很低,所以“声纹 ”是最好的解决方案。

四、语音处理技术的实践

其他的AI领域包括社保、汽车、移动、保险、国家信息中心、公安系统等。

公有云的试验已经逐步推开,涉及的领域包括移动金融、电子政务、社保的身份认证、电话反欺诈、汽车锁、考勤、门禁等领域。

上图是“声纹 ”的未来的场景,特点是便宜(方便和低成本)。在加油站、宾馆、无人商店、ATM机都可以装一些麦克风,需要认证的时候对它说一下。而不需要依赖于任何一个企业,任何一个应用或平台。

0 人点赞