语音识别内容

2020-07-30 20:32:03 浏览数 (1)

PAAS层

语音识别的技术原理

产品功能

采样率

语种

行业

自服务

效果自调优

VAD静音检测

录音文件识别,一句话识别,在ASR服务端处理。

VAD是减小系统功耗的,实时音频流。建议开启VAD,一分钟之后的结果就没有了。

开了VAD之后,就可以超过60秒,但是还是建议用户开启。

如果是断断续续的。

一般人也不能一口气说60秒。

所有的友商都是这么写的,

这么听是没有问题的,但是不建议这么做,实时的音频采样率。

Q1:会是怎样的一种对应关系呢?

Q2:静音状态会不会收费呢?

接口要求

集成实时语音识别 API 时,需按照以下要求。

内容

说明

支持语言

中文普通话、英文、粤语、韩语

支持行业

通用、金融

音频属性

采样率:16000Hz或8000Hz、采样精度:16bits、声道:单声道

音频格式

wav、pcm、opus、speex、silk、mp3

数据长度

音频流中每个数据包的音频分片建议为200ms,8k采样率对应的音频分片大小为3200字节,16k采样率对应的音频分片大小为6400字节

请求协议

HTTP

请求地址

http://asr.cloud.tencent.com/asr/v1/<appid>?{请求参数}

接口鉴权

签名鉴权机制,详见 签名生成

响应格式

统一采用 JSON 格式

开发语言

任意,只要可以向腾讯云服务发起 HTTP 请求的均可

请求频率限制

50次/秒

音频属性

这里添加声道这个参数:

ChannelNum

Integer

语音声道数。1:单声道;2:双声道(仅支持 8k_zh 引擎模型)。

Q1:录音文件保存成双通道,

A1:但是你传过来的音频,必须是双通道的。是你音频文件生成好的。是一个实时音频流的概念。

Q2:实时语音识别的分片是200毫秒吗?

A2:IOS的SDK. 200ms对应的

3. 输出参数

参数名称

类型

描述

Data

Task

录音文件识别的请求返回结果,包含结果查询需要的TaskId

RequestId

String

唯一请求 ID,每次请求都会返回。定位问题时需要提供该次请求的 RequestId。

这么一个特点是

能量频谱图,选择频谱显示。

采样是正常的采样。

季友生,云剑飞。

0 人点赞