HIFI-Gan：generative adversarial Networks for Efficient and high Fidelity speech synthesis

2021-01-26 14:44:51 浏览数 (1)

文章目录

摘要
前言
hifi-gan

摘要

提出HIFI-gan方法来提高采样和高保真度的语音合成。语音信号由很多不同周期的正弦信号组成，对于音频周期模式进行建模对于提高音频质量至关重要。其次生成样本的速度是其他同类算法的13.4倍，并且质量还很高。

前言

主流的语音合成大部分分为两个阶段：1）预测低分辨率的中间表示，例如梅尔声谱图或语言特征，从中间表示合成原始波形音频。HIFI-gan主要是解决第二阶段的问题，从梅尔声谱图到高保真度的波形文件。
wavenet是一种自回归卷积神经网络，合成高质量的音频的效率低。
HIFI-gan提出鉴别器，每个鉴别器有子鉴别器来生成一段固定周期的音频。

hifi-gan

hifi-GAN：包括一个生成器两个鉴别器：尺度检测器，多周期检测器。
1. 生成器是一个卷积神经网络，输入是梅尔频谱图，提升采样，直到输出帧数与原音频相同。
1. 多接受融合，MRF模块返回多个残差块的输出总和。
1. 鉴别器：识别长期依赖关系是音频建模的关键。

卷积神经网络语音合成机器学习神经网络深度学习

0 人点赞