AI 科技评论按:由腾讯优图主办,腾讯云、腾讯 Ai Lab 和极客邦协办,主题为「智变未来-浅谈人工智能技术应用与实践」的技术沙龙活动 3 月 23 日在北京举办,沙龙上来自腾讯、intel 的五位嘉宾就技术、产品、实践和应用等 Ai 话题展开分享。
活动一开始,腾讯优图产品负责人周可菁先为我们带来《计算机视觉技术在智慧零售中的实践与应用》的分享。
近年来,随着网上销售增速放缓,网购竞争正式步入存量阶段。2016 年智慧零售的提出,进一步说明人们消费结构在转型,变得更注重线下真实体验。同一时间,技术的快速进步有效降低了落实智慧零售的所需成本。
智慧零售,即是以人为核心的线上—线下联动,在场景数据化 数据网络化的基础上,实现全景数据化的洞察,从而提升商业运营效率。在此之中,计算机视觉主要扮演人-货-场三者联系的关键纽带,从到店-逛店-购买,完成知人知面知心的AI 赋能。
周可菁简单介绍了计算机视觉在线下运营不同阶段的功能,以及所涉及技术:
过店-进店 目的:运营、防盗 涉及技术:人脸检测、人脸属性分析、大规模人脸检索 逛店 目的:细粒度客流统计、精准定位客群属性、轨迹热区 涉及技术:人头体追踪技术方案、人体ReID 技术方案 收银 涉及技术:人脸识别 活体检测
第二位分享的是腾讯优图的AI 应用研究高级研究员王川南,其题目为《从硬件到算法——腾讯优图AI 终端产品实践》。
随着计算机视觉技术的逐步成熟,催生越来越多的计算机视觉 硬件需求,并且广泛被应用至各行各业中去。由此详细介绍了活体检测技术的演进之路:最初期的数字语音(唇动 语音)到后来的动作交互防翻拍,17 年优图推出首创的光线活体技术,通过屏幕发出随机光信号同时采集图像,可以验证是否为人脸的三维形状和质感。乃至最新的 3D 活体检测技术的广泛应用。
即便是效果最佳的 3D 检测方案,在具体落地时依旧遇到不少的困难,尤其是要能适应各种复杂光照环境,保证人脸区域的清晰,在 isp、分辨率、帧率、深度精度以及工作距离上都有相应的要求,需要我们一起努力攻克解决。
此外,为了在让软件能够更好地与硬件进行适配,这就要求我们必须对算法终端的性能进行优化。为此,腾讯优图研发了移动端高性能前向计算框架 NCNN 以及深度学习推断框架 RapidNet,两者皆由腾讯优图自主开发,其中前者已对外开源。
NCNN 是一个为手机端极致优化的高性能神经网络前向计算框架,其主要优势体现在:
• 支持卷积神经网络,支持多输出和多分支结构,可计算部分分支 • ARM NEON 汇编级良心优化,计算速度极快 • 精细的内存管理和数据结构设计,内存占用极低 • 支持多核并行计算加速,ARM BIG.LITTLE cpu 调度优化 • 可扩展的模型设计,支持 8bit 量化和半精度浮点存储,可导入 caffe 模型
而 RapidNet 则是一款深度学习推断框架,同时拥有跨平台、高性能、模型压缩、代码裁剪等众多突出优势。其在各个平台提供了统一的接口调用,以及同步的优化策略。面对异构网络,RapidNet 可以有效发挥硬件加速技术,并保证多核 CPU/GPU 的任务调度。至于面对量化难点,RapidNet 可以确保手势检测、跟踪等模型效果在大部分机型上提升 20%—40%,同时精度降低平均在 0.5 % 以内。
随后,来自腾讯 AI Lab 的高级研究员金明杰为我们带来《基于 AI Lab 语音技术的应用与实践》的分享。
语音是人的声音,机器要想理解人的声音,通常使用的是音频信号。而音频信号是一个有规律的声波的频率、幅度变化信息载体,其关注的核心要素是采样率、量化位数以及编码算法。常见的语音技术展现形式可以分为两种:一种是语音到目标的信息,一种是给定信息到语音。涉及技术主要包括语音唤醒、声纹识别、语音识别、语音活动检测以及语音合成等。
以音箱产品为例,音箱通过前端接收人们说话的信号,再经过语音唤醒,各种前端技术处理过猴,音箱把信号传到云端,让云端做声纹识别和语音识别。在识别成文字后,进而转至语义理解,通过文本处理的方式进行意图识别,然后调用功能模块,让用户可以听歌曲、获得天气预报、听有声书等等,最后才是回复术语。
语音唤醒主要看 3 个指标:FA(误唤醒)、FR(未唤醒)以及 EER(FA 等于 FR 的状态)。具体操作流程上,首先是要确定建模单元,然后通过一个已经训练好的神经网络训练模型进行训练。为了保证唤醒效果,过程中我们需要保证模型在说话内容符合时序延续、说话语序等条件的情况下才能被唤醒,至于如何进行设置,就属于产品经验层面的东西。语音唤醒的常见结构主要可以分为两种:单唤醒模型和双唤醒模型——前者结构简单,然而模型复杂功耗高,一些小芯片可能会抗不住;后者结构复杂,功耗较低,而且可以把部分唤醒模型放在云端,可避免误唤醒情况的出现。
至于在前段技术方面,主要会通过麦克风阵列来达到以下效果:
• 语音增强/去混响 • 声源定位 • 回声消除
语音识别技术是把人类的语音中的词汇内容转换成计算机可读的输入,即是将音频信号发送到云端,云端作为解码器将会识别出结果。
解码器负责把音频信号转化成建模单元的部分是声学模型,目前比较常见的有:
• DNN 网络——下面输入层,中间 N 个隐层,上面输出层。它的计算量相对较小,非常容易部署,基本上所有的设备都可以搞定。 • CLDNN 网络——C 就是卷积网络,L 是 LSTM 网络,D 就是 DNN。这个网络的优点是快速收敛,快速达到比较好的识别效果。
最后,金明杰也为我们展望了一下语音产品的发展,目前有待完善的部分包括:
• 方言、方普 • 多语种混合 • 变声 • 多人说话
活动最后,来自腾讯云大数据及人工智能产品中心高级产品经理周吉成带来《腾讯云人脸核身技术原理与最佳实践》的分享。
所谓的人脸核身技术,换句话说即是实名、实人:
实名,就是你的名字是合法有效的。 实人,是要证明你是你。
早期我们都有这种体验,比如说去银行、运营商开卡都需要本人到现场,领养老退休金的,年纪已经很大了,还要去社保局亲自做实人证明,这些成本都非常高。此外,网络办事在当下已经很普遍,然而要想进行网上身份验证依然非常困难,更别说还有身份冒用的问题,以及线下场景遇到检查却没带身份证的情况。因此,无论央行、运营商还是保险行业都提倡利用 OCR 技术运用至业务流程中以提升效率,这是国内人脸技术的应用背景。
活体检测方面,最典型的流程是通过远程进行核身——第一步是身份证 OCR 识别,然后系统提示读数字,以证明是在场的人,最后再录制视频给出最终结果,在这过程中系统会进行照片比对。这个流程会嵌入到很多业务环节里,比如说身份证更新或者身份证号更改。
总的来说,活体核验技术是一个不断演化的过程,活体算法在落地实际场景时,实际上是一个用户体验与安全性上两者相互妥协的过程。比如早期做动作交互,用户就对此表示厌恶,认为这种验证模式特别傻;后来微众银行做读数字,虽然安全性有所提升,用户依然不买账;这才有了后来的「激光守卫」——通过屏幕反光做活体检测以及更高安全级别的红外、3D 结构光照。
核身从某种程度上也要做多种模式的融合,才能有更高的安全性,即便如此,依然免不了遭遇很多「攻击」。遇到这种情况,纯粹依赖底层算法是不现实的。其他可考虑的方案就包括接入渠道层面做安全控制、后端风控、人工审核或者多种活体模式的组合。