那些天籁之音,正在消亡

2021-12-13 10:10:26 浏览数 (1)

你知道吗?

全球每2周就会有一种语言消失。

语言的消亡意味着珍贵的多样性文化信息流失,与物种的灭绝毫无二致。

现实情况是,濒危语言消亡的速度比濒危动物消亡的速度还要快,据测算,到本世纪末,世界上50%-90%的语言将会消亡。

保护濒危语言是保护文化多样性的重要一步,那么,人工智能又能做什么呢?

语音技术发展到今天,其应用能力已经媲美甚至超越人类平均水平。从历史视角看,不管是地理位置障碍还是语言障碍,它都将是促进和增强人与人、人与机器自然对话的强大工具。

在濒危语言文化保护上,我们由此也看到了新的思路。

通过语音识别技术,可以把濒危语言数字化保留下来,建立语言数据库;当岁月流转,依赖口口相传的传统方式失去传承断层时,我们还可以通过语音合成技术唤醒那纯粹的乡音,实现用AI技术推进世界濒危语言保护公益事业发展和技术变革。

为了更好的践行科技向善,打造普惠型AI,依托腾讯多年在人工智能领域的技术积累与产业落地经验,腾讯云AI联合微信智聆实验室推出了全新的语音产品——腾讯云AI智能语音。

那么,腾讯云AI智能语音到底有何不一样?

首先明确一个概念,什么是智能语音?即智能语音技术,是实现人机语言的通信,包括语音识别技术(ASR)和语音合成技术(TTS)。

简单来说,语音识别(ASR)是一项将人类的声音信号转化为文字的过程,而语音合成(TTS)则是将文本转化成拟人化语音,语音识别与语音合成在应用上正好打通了人机交互的闭环。

腾讯云AI智能语音正是基于ASR 和TTS Oteam(注:Oteam是腾讯公司内部各个技术协同组织)技术积累,由微信智聆实验室根据各种场景量身定做语音PASS服务。除ASR和TTS外,腾讯云AI智能语音在口语评测、语种识别、声纹识别、声音定制、语音情感识别、音频检测以及智能语音整体解决方案等方向,也积极探索和投入资源,不断丰富语音能力和服务建设。

01

上云赋智,服务于人

作为最成熟的应用方向之一,智能语音无论是助力公益还是商业落地,筑牢关键技术这个核心底座,才能行稳致远,释放更多的创新红利。

另一方面,实现场景规模化的落地也离不开数字基础设施搭建和服务体系支撑,而这些正是腾讯云AI多年在技术积累与产业实践方面沉淀的优势。

在智能语音使用上,众多中小企业乃至个体开发者普遍遇到价格贵、准确性差异大、开发难度大、服务支撑滞后、个性化定制等系列问题。

腾讯云AI智能语音一直关注如何降低技术、产品使用门槛。

通过AI与云的深度融合,将语音识别、语音合成等AI原子能力封装成标准化的服务,通过公有云的方式开放给各行业的客户,大大降低智能语音使用门槛,让客户实现高效接入、按需使用,从而满足客户在新型应用场景下的需求。

02

语音识别,业界领先的字准率

智能语音的研究是以语音识别技术为开端。

近年来,在云计算、深度学习、大数据的相互促进下,成就了语音识别性能质的飞跃,得以走入更广阔的应用场景。

在腾讯云AI智能语音的发展上,离不开微信智聆实验室在语音领域的十多年深耕。

坚持“以用户价值为依归”的导向,微信智聆实验室除了将先进技术应用到产品上提升用户体验外,团队还发表了数十篇篇国际顶级会议学术论文,拥有90余项相关专利。

经过多年努力,腾讯云AI智能语音识别性能位居国内第一梯队水平,已经支持中文普通话、英语、粤语、日语、泰语和上海话等23种方言的语音识别,字准率达98%,后续将持续开放其他语种和语言的识别能力。

在产品能力方面,具体来说包括:

1/实时语音识别:对不限时长的实时音频流进行识别,识别结果自动断句,标记每句话的开始和结束时间,可应用于智能语音助手等实时音频流场景;

2/录音文件识别对用户上传的五小时之内的录音文件进行识别,可应用于呼叫中心语音质检、视频字幕生成,会议语音资料转写等场;

3/一句话识别:对一分钟之内的短音频文件进行识别,可应用于语音输入法、语音消息转文字、语音搜索等场景;

4/语音异步流识别:对直播协议语音流进行识别,准实时返回识别结果,支持音视频场景专用模型,可用于直播流质检等场景;

5/录音文件识别极速版:对用户上传的较大的录音文件进行极速识别,半实时返回识别结果,可应用于音视频字幕、准实时质检分析场景等场景。

在实际应用方面,往往需要和具体场景结合,腾讯云AI智能语音在上述通用能力基础上,推出电话语音云、视频媒体语音云、教育语音云等多种垂直领域服务。

客服质检为例,呼叫中心传统质检一直面临着三大问题:质检手段单一、质检员工作低效与缺少质检工具。受限于人的工作效率和人力成本,只能把工作重心放在听录音的基础部分,而脱离了质检本身的目的——分析评判,导致只能抽检不能全检。

依托语音识别技术与云计算能力加持,将电话录音识别为文本,再通过质检规则对文本进行分析,识别不符合规范的服务通话记录,释放人工听录音消耗的时间成本,大幅提升呼叫中心工作质量管控能力,将质检员从听录音的基础工作中解放出来,促使质检员工作重心回归到统计分析评判的本身。

疫情期间,线上会议成为常态,经常使用腾讯会议的朋友会发现,腾讯会议升级了一项新的黑科技功能——实时字幕,当你打开腾讯会议视频开会的时候,字幕功能就可以实时自动识别其中的音频,并生成字幕!

同理,在拍摄Vlog等场景中,通过实时语音识别快速实现用户边拍边说,将语音内容直接显示在视频字幕上,大大减少了用户后期处理的成本,使得用户拍摄后即可发布。

当然,开会还会带来另一个问题:做会议纪要。传统的人工记录费时费力,语音识别的介入可以说是真正带来了希望之光;在腾讯会议上,只需简单的开启云录制,结束后在个人中心直接开启录音文件识别功能,轻松解放双手。

其他的应用方向,如当下的直播安全,除了基于图像层面的鉴别外,还包括语音甚至音频声音识别的能力;其次是智慧法庭,以前的书记员需要做庭审记录,但会遇到可读性不强的问题,而语音识别技术则可对庭审记录准确转写,并且便于后续做档案检索。

经过微信、腾讯视频、王者荣耀等大流量产品的充分验证,在互联网、金融、教育、直播、短视频等领域,基于海量数据实现分场景优化,腾讯云AI智能语音识别积累了多行业的最佳实践,广泛应用于客服录音质检、视频字幕、直播质检、会议实时转写、语音输入法、搜索等场景。

03

语音合成,让人机交互更有温度

如果说产品代表服务用户的能力,声音就是让用户享受服务时的最佳沟通介质。

很多喜欢看电子小说的朋友,对“听书”一定不陌生,移动阅读因其便捷性逐渐成为主流阅读方式。很多内容平台在增强阅读体验方面,打破传统“看文字”的阅读方式,为用户提供文字语音朗读功能,通过“听书”让用户在休闲、驾车过程中依然可以获得高效的阅读体验。

从“看”到“听”的转变,除了带来更好的体验,甚至会彻底改变平台玩法和商业模式,也让用户对语音的依赖大大提高。

而这些正是语音合成技术带来的进步。依托微信智聆实验室,腾讯云AI智能语音合成采用先进的端到端神经网络技术,根据不同的应用场景自主研发了多套技术解决方案。

在语音合成算法上,提出了多信息融合学习的并行端到端模型(HDR-Nana),以及定制音色的端到端模型(SERS),HDR-Nana相比目前业界主流的声学模型,在保证音频稳定性同时,大幅提升实时率,基于SERS的音色定制能有效提升少数据量定制音色的自然度和稳定性。配合自主研发的基于LPCNET和对抗学习理论的高效声码器,为业务在效果和成本选择上提供了多种选择方案。

目前,腾讯云AI智能语音合成已经支持中文、外语、方言,也可以合成中英混读语音,且可以自定义男声、女声、童声、语速、音量等属性,合成语音速度快、自然流畅、拟真度高。

应用上,不仅是有声阅读,还有很多现实可以触及的。

在教育方面,尤其是语言教育方面,目前的教育方式中,想学到标准的发音和持续训练,需要大量人力、资金成本。随着语音合成技术的应用涌现,一方面可以大大增加有声教育素材库,另一方面,甚至可以部分取代真人对话的教育内容和场景。

配音领域,利用语音合成技术,可以大大降低配音的成本和周期,选择性也更多;短视频制作可以选择各种音色为视频配上有趣的声音来展现内容;虚拟主持人利用语音合成技术,可以提升信息的传播时效性,同时大大缓解主持人的工作压力,降低其工作强度。

在备受关注的音色上,腾讯云AI联合微信智聆团队深入了解产品需求根据不同的应用场景制作了多个精品音色:小说朗读-情感音色,资讯消息-播报音色,语音助手-对话音色,视频编辑-多风格特色音色,智能客服-客服音色等,并在广泛应用于腾讯内部产品中,能够符合有声阅读、智能客服、新闻播报、车载导航、游戏角色变声等多样的应用场景,让设备和应用轻松发声,人机语音交互效果更加逼真。

经过多年的优化迭代,腾讯云AI智能语音在语音识别和语音合成等方向其性能指标处业界一流水平,在公司内外服务近百个产品,获得用户及客户的高度好评,日请求量超40亿次

在某些产品能力集成上,尽管语音技术可能并不是产品的核心功能,但往往能在核心功能外和年轻群体中收到奇效,引领一波潮流;不仅可以带来显著的流量增长,也带来了优质的用户群体和提高留存率。

智能语音的发展,除了经济效益,也能帮助解决社会问题和公益痛点,特别是一些特殊人群,AI技术可以带来更多的希望和便利。

疫情期间,各种不便利成为常态,而对那些本就不方便的视障人群来说,如何跨越新的生活、工作难题也成为全社会的关注焦点。

腾讯云AI秉承科技向善的理念,率先提出并开放语音、视觉等AI技术进行免费的信息无障碍优化支持,一方面通过技术解决视障者的生活难题,如通过OCR与语音技术结合帮助视障人群获取疫情通知、药物说明以及疫情期间对孩子喂养看顾、课业指导和亲子陪伴等,让盲人朋友能通过移动设备随时随地收听和下载有声读物;另一方面鼓舞了视障伙伴的开发工作,让更多人了解视障者的开发能力。

技术的进步会不断冲破原有的障碍,满足越来越多的用户需求,使得更创新的应用不断涌现,实现用声音改变生活的美好愿景,而这也是腾讯云AI智能语音的使命!

最后墙裂安利一波!腾讯云AI智能语音在近日上新了23种方言的识别能力,满足企业更多业务场景,有需要的可以扫码联系我们,优先体验哦!

更多腾讯AI产品免费体验与合作联系

欢迎识别下方小程序码进入

燃烧的“蚂蚁呀嘿”同款,你get了吗?| 报告!我可能被偷袭了...... | 那个心心念念的盛世美颜来了 | 后疫情时代的智慧旅游景区,从打造入口开始!| 提到盛世美颜,你最先想到的是?| 一张报销单引发的"吐槽大会" | 初音未来、洛天依、镜音......揭秘虚拟歌姬背后的大BOSS | 抠图,令我苦不堪言! | 戳中打工人的爽点,3步就够了 | AI会是考试作弊的终结者吗?| 腾讯云AI「 承包了一片海 」| 久违了,我我我我的童年照!| 劳模打字人,走出另一条路 | 宝!AI来给你发对象了 | 腾讯云AI「开了一个脑洞」| 当导航念出Rap范儿,有梗有味 | 那些蹭ETC的人,后来都怎么了 | 这届东京奥运会「岂止于野」| 打工人有没有「会议纪要自由」?| 拆盲盒,领七夕奇妙对象了 | 送Q币 | 那些褪色的票据大家都是怎么保存的?| 《失控玩家》:AI自我觉醒与程序员的浪漫情书 | 黑产肆虐的背后,人工智能如何剥开“面具”伪装?| 国庆比心照 | 壮丽72年,一起为祖国比个心 | 腾讯云AI视觉全面发力,首次以Major Player进入IDC亚太市场评估报告!| 首批!腾讯云慧眼人脸核身通过信通院可信AI人脸识别评估 | 硬核!腾讯云慧眼完成NFEC首款移动金融客户端人脸识别技术检测 | 加速普惠AI,腾讯云AI在下一盘什么大棋?| 谁,复制了另一个我?| 

点击下图可进入「腾讯云AI体验中心」免费体验

0 人点赞