语音识别调研报告
一、语音识别:(Automatic Speech Recognition,ASR)
代码语言:javascript
复制- 应用:语音识别是为了让计算机理解自然语言。
- 中文语音识别的关键点:1.句到词的分解,词到音节的分解;2.语音的模糊性,如多音字问题;3.词在不同语境中不同;4.环境噪声的印象。
- 处理的核心步骤:
- - 1. 音频处理:消除噪声,让信号更能反映语音的本质特征。
- - 2. 声学特征提取:MFCC、Mel等
- - 3. 建立声学模型和语言模型:语音识别由这两种模型组成。
二、语音识别技术概要:
代码语言:javascript
复制- 1. 隐马尔科夫链(HMM) 技术成熟、稳定为目前主流的语音识别方法。
1.1 核心的框架HTK包
- 2. 人工神经网络,也就是DNN方法。
- - 2.1 主流的语音识别解码器为(WFST):该解码器把语言模型和声学模型集成为一个大的网络,大大的提高了解码速度。
- - 2.2 主流的DNN方法有:
2.2.1 ASRT:中文模型
2.2.1.1 核心算法:卷积网络、CTC声学模型,熵最大的隐马尔科夫语言模型
2.2.1.2 准确率:80%
2.2.2 训练平台:keras tensorflow
- - 2.3 DeepSpeechRecognition 模型
- - 2.4 Kaldi方法类