语音合成:HIFI-Gan 方法解读

2021-01-18 17:57:25 浏览数 (1)

toc

摘要

提出HIFI-gan方法来提高采样和高保真度的语音合成。语音信号由很多不同周期的正弦信号组成,对于音频周期模式进行建模对于提高音频质量至关重要。其次生成样本的速度是其他同类算法的13.4倍,并且质量还很高。

前言

  1. 主流的语音合成大部分分为两个阶段:1)预测低分辨率的中间表示,例如梅尔声谱图或语言特征,从中间表示合成原始波形音频。HIFI-gan主要是解决第二阶段的问题,从梅尔声谱图到高保真度的波形文件。
  2. wavenet是一种自回归卷积神经网络,合成高质量的音频的效率低。
  3. HIFI-gan提出鉴别器,每个鉴别器有子鉴别器来生成一段固定周期的音频。hifi-gan
  4. hifi-GAN:包括一个生成器两个鉴别器:尺度检测器,多周期检测器。
    1. 生成器是一个卷积神经网络,输入是梅尔频谱图,提升采样,直到输出帧数与原音频相同。
    2. Krz1Io3km82nYQsKrz1Io3km82nYQs
      1. 多接受融合,MRF模块返回多个残差块的输出总和。
    3. 鉴别器:识别长期依赖关系是音频建模的关键。
      1. 多周期鉴别器MPD包括很多个子鉴别器
      2. 多尺度检测器:MSD连续评估音频序列
  5. 训练
    1. GAN损失:交叉熵
      1. 7pzQLvRskZnjVg17pzQLvRskZnjVg1
    2. 梅尔声谱图损失函数
      1. tez1KbhRcrHgsvmtez1KbhRcrHgsvm
    3. 特征匹配度损失:判断生成的样本与真实样本之间的不同程度。
      1. PcfXWvrdHFpAIM3PcfXWvrdHFpAIM3
    4. 判别器和生成器的损失函数为
      1. hSaHtfLBV8QoNOehSaHtfLBV8QoNOe
  6. 结果
    1. 与其他模型对比语音质量、合成速度、模型大小,hifi-gan都是略胜于其他模型的。

0 人点赞