开篇引言
话不多说,先来两张图感受一下。
现实生活中,越来越多的地方需要使用到语音识别,微信里客户的长条语音,游戏里更方便快速的交流,都是语音识别的重要场景。现在为大家强力推荐腾讯云语音识别,一款为企业和开发者提供极具性价比的语音识别服务。腾讯云语音识别服务经微信、腾讯视频、王者荣耀、和平精英等大量内部业务验证;同时也在线上线下大量互联网、金融、教育等领域的外部客户业务场景下成功落地。同时日服务亿级用户,具有海量数据支撑、算法业界领先、支持语种丰富、服务性能稳定、抗噪音能力强、识别准确率高等优势。
三分钟接入
现在开始讲我们的重头戏,三分钟接入。如何实现我们的三分钟接入呢。
注册开通
0分1秒,登录腾讯云语音识别控制台,点击按钮开通。
获取密钥
0分3秒,得益于腾讯云快速稳定的服务,我们迅速开通,并在访问密钥页面,可获取到相应的Appid以及SecretId和SecretKey。
选取服务
0分25秒,选取你所需的服务。语音识别开放录音文件识别、实时语音识别和一句话识别三种服务形式,满足不同类型开发者需求。
录音文件识别
对不超过一小时的录音文件进行识别。适用于语音时间较长、对实时性要求低的场景,例如客服质检、视频字幕生成、音频节目字幕生成等。
- 语言和方言:目前支持中文普通话、英语、粤语。
- 行业/领域模型:目前支持音视频领域模型。
- 音频属性:支持 wav、mp3、silk、speex、amr、m4a 等主流的音频格式,支持8k、16k采样率的单声道或双声道音频识别,支持16bit的数据采样精度。
- 音频数据长度支持:若采用直接上传音频数据方式,建议音频数据不能大于5MB;若采用上传音频 url 方式,建议音频时长不能大于1小时。
- 自学习模型:支持通过语言模型自学习工具进行定制优化,可以有效提高文本场景下的语音识别准确率。更多详情请参阅 自学习模型文档。
- 热词:目前支持通过控制台方式和API方式进行热词的创建,添加热词可以显著提升专有词汇识别准确率。更多详情请参阅 热词文档。
关于录音文件识别使用详情,请参阅 录音文件识别 API 文档。
实时语音识别
对实时音频流进行识别,达到“边说边出文字”的效果。适用于有一定实时性要求的场景,例如语音输入、语音机器人、会议现场记录、直播内容审核、视频实时添加字幕等场景。
- 语言和方言:目前支持中文普通话、英语、粤语、韩语。
- 行业/领域模型:目前支持金融领域模型。
- 音频属性:支持 wav、pcm、speex、silk、mp3 的音频格式,支持8k、16k采样率的单声道音频流,支持16bit的数据采样精度。
- 音频数据长度:建议每个数据包的音频分片最大不能超过200KB。
- 自学习模型:支持通过语言模型自学习工具进行定制优化,可有效提高专有领域或行业下的语音识别准确率。更多详情请参阅 自学习模型文档。
- 热词:目前支持通过控制台方式和API方式进行热词的创建,添加热词可以显著提升专有词汇识别准确率。更多详情请参阅 热词文档。
关于实时语音识别使用详情,请参阅 实时语音识别 SDK 文档。
一句话识别
对60秒之内的短音频文件进行识别。适用于语音消息转写场景,例如语音短信、语音搜索等。
- 语言和方言:目前支持中文普通话、英语、粤语。
- 音频属性:支持 wav、mp3 的音频格式,支持8k、16k采样率的单声道音频,支持16bit的数据采样精度。
- 音频数据长度:若采用直接上传音频数据方式,建议整个数据包不能大于600KB;若采用上传音频url方式,建议音频时长不能大于60s。
- 自学习模型:支持通过语言模型自学习工具进行定制优化,可有效提高专有领域或行业下的语音识别准确率。更多详情请参阅 自学习模型文档。
- 热词:目前支持通过控制台方式和API方式进行热词的创建,添加热词可以显著提升专有词汇识别准确率。更多详情请参阅 热词文档。
关于一句话识别使用详情,请参阅 一句话识别 SDK 文档。
实现调用
1分08秒,在选取好相应的服务以后,只需要下载相应的sdk文档,填入相应的密钥和Appid,加上相应的音频地址和参数,即可实现调用。
写在最后
至于剩下的两分钟,是我多算了,各位看官可以思考下如何更好使用语音识别服务,如果有什么建议或意见,或者需要帮忙的,请随时咨询我们腾讯云语音识别的客服,我们会有专业的工程师为大家提供帮助。