PAAS层
语音识别的技术原理
产品功能
采样率
语种
行业
自服务
效果自调优
VAD静音检测
录音文件识别,一句话识别,在ASR服务端处理。
VAD是减小系统功耗的,实时音频流。建议开启VAD,一分钟之后的结果就没有了。
开了VAD之后,就可以超过60秒,但是还是建议用户开启。
如果是断断续续的。
一般人也不能一口气说60秒。
所有的友商都是这么写的,
这么听是没有问题的,但是不建议这么做,实时的音频采样率。
Q1:会是怎样的一种对应关系呢?
Q2:静音状态会不会收费呢?
接口要求
集成实时语音识别 API 时,需按照以下要求。
内容 | 说明 |
---|---|
支持语言 | 中文普通话、英文、粤语、韩语 |
支持行业 | 通用、金融 |
音频属性 | 采样率:16000Hz或8000Hz、采样精度:16bits、声道:单声道 |
音频格式 | wav、pcm、opus、speex、silk、mp3 |
数据长度 | 音频流中每个数据包的音频分片建议为200ms,8k采样率对应的音频分片大小为3200字节,16k采样率对应的音频分片大小为6400字节 |
请求协议 | HTTP |
请求地址 | http://asr.cloud.tencent.com/asr/v1/<appid>?{请求参数} |
接口鉴权 | 签名鉴权机制,详见 签名生成 |
响应格式 | 统一采用 JSON 格式 |
开发语言 | 任意,只要可以向腾讯云服务发起 HTTP 请求的均可 |
请求频率限制 | 50次/秒 |
音频属性
这里添加声道这个参数:
ChannelNum | 是 | Integer | 语音声道数。1:单声道;2:双声道(仅支持 8k_zh 引擎模型)。 |
---|
Q1:录音文件保存成双通道,
A1:但是你传过来的音频,必须是双通道的。是你音频文件生成好的。是一个实时音频流的概念。
Q2:实时语音识别的分片是200毫秒吗?
A2:IOS的SDK. 200ms对应的
3. 输出参数
参数名称 | 类型 | 描述 |
---|---|---|
Data | Task | 录音文件识别的请求返回结果,包含结果查询需要的TaskId |
RequestId | String | 唯一请求 ID,每次请求都会返回。定位问题时需要提供该次请求的 RequestId。 |
这么一个特点是
能量频谱图,选择频谱显示。
采样是正常的采样。
季友生,云剑飞。