ASR 作为机器学习的基础应用之一,已成为众多业务支撑的基础能力,在录音质检、音频字幕、会议转写、语音输入等场景中发挥越来越大的作用。腾讯云 ASR 作为业界领先的语音识别服务提供商,为开发者提供语音转文字服务的最佳体验,具备识别准确率高、接入便捷、性能稳定等特点。
基于腾讯的多个 AI 实验室的模型赋能,腾讯云 ASR 团队接入和开发了多种类型识别服务,如一句话识别、录音识别、实时语音识别等,业务覆盖通用、金融、医疗、游戏等多种场景。此外,工程方面,团队在整体系统的复用性、接口性能、服务稳定性上也做了大量优化。
鉴于此,腾讯云与微信智聆深入合作打造了模方平台,大幅度提升了微信智聆 ASR 能力的接入、评测、交付和上线效率;进而能对外输出更为敏捷的模型版本迭代能力。此外,平台也在 IBG 的香港粤语等模型进行验证,使平台承接上游实验室模型具有普适性。
自 2020 年 9 月份内部试用以来,模方平台已逐步替代了 ASR 模型的绝大部分接入、整合、评测和交付工作,极大提升效率的同时,将大量人力从重复工作中释放出来。此外,无论模型更新还是 sdk 更新,均需通过效果、性能的回归测试,尽可能发现潜在问题,减少服务带病上线的可能。比如近期专项,根据需求实验室同时释出了大量模型版本,sdk 也同步更新,通过平台很好地支撑了模型的快速迭代,保证线上识别服务模型的快速迭代,而这些在之前通过人工进行评测和更新时,是完全无法满足的。
引入模方平台后,效率方面:
- 模型评测时间,由 2 人天降低到 30 分钟
- 支持模型与引擎的自动化上线
- 整个评测流程,仅需一人即可
而在质量方面:
- 应用与模型版本管理,方便查询和追溯
- 方便模型回归测试,尽可能排查潜在问题
- 引入审核机制,确保交付模型满足质量要求
- 完善效果和性能指标范围,进一步确保模型质量
ASR 团队调研现有其他评测平台的基础上,结合云 ASR 服务的类型和特点,开发了一站式的 ASR 模型评测系统——模方平台。平台支持引擎接入、模型整合、安装包交付、模型评测、质量审核、引擎上线等核心流程,较好地弥补了从上游实验室释出引擎模型,到模型上线中间的流程环节,通过自动化、可定制的形式,在兼容各种模型的同时,极大地提升了工程侧的模型迭代效率。平台的核心流程如下所示
下面逐一介绍下流水线的各个环节:
引擎接入与构建
实验室释出一版模型,主要有两部分组成:sdk引擎、模型(环境文件与配置)。
sdk引擎,通常为头文件及对应的 lib 库。识别层要使用模型,需要调用 lib 库暴露的 头文件定义的 api 函数,并将 lib 库编译到识别层应用 speech-engine-platform 中。模方平台通过对接公司的 CODING-CI 平台和织云系统,实现speech-engine-platform 的自动编译、代码检查、打包和上传织云系统的功能。
使用模方平台,在新 sdk 释出后,工程师只需替换新的 lib 库文件,并把代码提交到指定的 git 分支,然后在平台上选择对应分支,点击构建,即可自动化生成织云安装包。
此外,由于线上服务器存在不同的硬件配置,针对不同型号,平台可自动生成对应各个配置的织云包,极大地方便了下游系统的线上部署。
模型整合与入库
实验室释出的模型,通常由不同的组件环境组成,需要整合后才能成为一个完整的模型。以微信智聆实验室的模型为例,ASR模型包含四个组件:识别环境、VAD 环境、话者分离环境和后处理环境。
识别环境用于将音频数据转换为文字,VAD 环境用于删除非人声数据,话者分离用于区分一段语音中不同的 speaker,后处理用于将识别后文本进行进一步处理,如阿拉伯数字转换等。
四个环境相互独立,但版本上又有一定对应关系,只有正确地整合成为一个整体,才能使用。
之前人工整合模型,需要登录到中转机,找到各环境对应文件夹,将文件夹拷贝到本地服务器的指定目录,并将四个组件的配置项放到一个统一的配置文件。可见这样做,不但占用人力、效率低下,而且非常容易出错,版本信息也很难管理和追溯。为未来线上模型部署、问题排查埋下了隐患。
模方平台的引入,解决了这个问题。在平台上,可以方便地浏览各个组件的所有版本目录,在整合和录入模型时,只需选择各自版本目录和配置文件,然后填写新模型的版本号,即可完成模型的整合、配置文件生成和版本号管理等操作。
下游环节均可通过该版本号回溯模型组件信息。
模型统一评测
新模型在发布前,需要评测模型是否满足质量要求。评测主要关注两个维度:效果评测和性能评测。
效果评测:指标主要包含:字准率、WER、插入/删除/替换错误、说话人分割聚类错误率 DER 等,用于衡量该版模型的识别效果。为满足特定业务用户希望根据自己的语料获得效果指标的需求,平台进一步提供自定义测试集功能。
性能评测:在性能上,相对于实验室关注的实时率等指标,工程侧更为关注从用户使用的角度,在不同的识别服务类型上,如何衡量服务识别的性能情况。ASR 服务种类和性能指标如下:
ASR服务类型 | 指标 |
---|---|
录音识别 | 24小时转码时长 |
一句话识别 | 最大并发数、可用性 |
实时语音识别 | 并发路数、尾包延迟、VAD时延、首字时延 |
以上是模型评测报告的指标。新模型录入后,用户在平台可以方便地启动一次模型评测流程。选择模型版本号,指定测试服务器配置型号,点击启动评测即可。平台会自动将模型部署到指定测试服务器,编译并部署识别层应用 speech-engine-platform,然后调用评测服务进行评测,通常一次完全评测在 30分钟左右,即可获取评测报告。
模型发布上线
发布前,需要针对上个环节产出的评测报告进行审核。通过评测报告,用户可查看当前模型的效果指标和性能指标,并观察相较上一版的变化,判断是否满足上线标准,填写审核意见,并点击通过或拒绝即可。 审核通过后,点击交付,即可将开箱即用的安装包交付给下游系统。安装包包含两部分:识别层应用织云包、模型打包文件,两者版本均已对齐。
交付后,即可进行模型上线操作。之前通过人工上线,需要两步: 1. 识别层上线,需人工根据需要上线的 git 分支,手工触发识别层应用编译和织云打包;再登录公司织云系统,选择对应织云包版本和 IP 列表,部署到线上服务器 2. 模型上线,需人工将模型下载到所有需要升级的服务器上,并解压部署到指定目录 可以看到,引擎和模型的版本正确性,需要人工保证,不仅效率较低,而且也容易出错。平台支持上线,不仅提升效率和质量,而且进一步保证版本可追溯。
其他特性
除上述功能外,平台还支持如下特性:
- 评测机型上,支持指定多种GPU配置机型
- 场景上,支持金融、视频、医疗等场景模型评测
- 方言与语种上,除中文外,支持上海话、粤语、英语、日语等
- 支持公有云与私有化模型统一交付
- 支持 CPU 模型评测
腾讯云语音识别ASR
提供业界非常具有性价比的语音识别服务,超高识别准确率,适用多场景
点击原文了解更多
实时语音识别
对不限时长的实时音频流进行识别,识别结果自动断句,标记每句话的开始和结束时间;可应用于智能语音助手等实时音频流场景。
录音文件识别
对用户上传的五小时之内的录音文件进行识别;可应用于呼叫中心语音质检、视频字幕生成,会议语音资料转写等场景。
一句话识别
对一分钟之内的短音频文件进行识别;可应用于语音输入法、语音消息转文字、语音搜索等场景。
语音流异步识别
对直播协议语音流进行识别,准实时返回识别结果,支持音视频场景专用模型;可用于直播流质检等场景。
录音文件识别极速版
对用户上传的较大的录音文件进行极速识别,半实时返回识别结果;可应用于音视频字幕、准实时质检分析场景等场景。
关注腾讯云AI平台,回复“入群”加入产品、技术、认证社群
了解更多AI资讯