生成式对抗网络GAN在语音自然语言处理中的应用|

2019-09-25 16:51:53 浏览数 (1)


新智元推荐

来源:专知(LiteProgrammer)

【新智元导读】InterSpeech是语音处理领域的顶级会议,于9月15日-9月20日在奥地利格拉茨召开,国立中国台湾大学李宏毅老师在会上作了题为“Generative Adversarial Network and its Application to Speech Processing and Natural Learuage Processing”的报告,本文整理了报告的主要内容,并分享了报告PPT。

生成对抗网络(GAN)是训练模型的新思想,生成器和鉴别器相互对抗以提高生成质量。最近,GAN在图像生成方面取得了惊人的成果,并在此基础上迸发了大量新的思想,技术和应用。虽然只有少数成功的案例,但GAN在文本和语音领域具有很大的潜力,以克服传统方法的局限性。

内容简介

本教程分为三个部分。在第一部分中,我们将介绍生成对抗网络(GAN)并提供有关此技术的全面介绍。在第二部分中,我们将重点介绍GAN在语音信号处理中的应用,包括语音增强,语音转换,语音合成,以及域对抗训练在说话人识别和唇读等方面的应用。在第三部分中,我们将描述GAN生成句子的主要挑战,并回顾一系列应对挑战的方法。同时,我们将提出使用GAN实现文本样式转换,机器翻译和抽象摘要的算法,而无需配对数据。

讲者简介

李宏毅教授分别于2010年和2012年在国立中国台湾大学获得了硕士与博士学位。2012年9月至2013年8月,他是中国科学院信息技术创新研究中心的博士后。2013年9月至2014年7月,他是麻省理工学院计算机科学与人工智能实验室(CSAIL)语言系统组的访问科学家。现任国立中国台湾大学电气工程系助理教授,并任职于该大学计算机科学与信息工程系。他的研究重点是机器学习(尤其是深度学习),口语理解和语音识别。

曹昱副研究员分别于1999年和2001年获得中国台湾大学电子工程学士学位和硕士学位。他于2008年获得佐治亚理工学院电气与计算机工程博士学位. 2009至2011年,曹博士是日本国家信息与通信技术研究所(NICT)的研究员,从事自动语音研究和产品开发,识别多语言语音到语音翻译。目前,他是中国台湾台北中央研究院信息技术创新研究中心(CITI)的副研究员。他于2017年获得了中央研究院职业发展奖。曹博士的研究兴趣包括语音和说话人识别,声学和语言建模,音频编码和生物信号处理。

目录

GAN的基本思想及一些基础的理论知识

- GAN的三种类别

- GAN的基本理论

- 一些有用的技巧

- 如何评估GAN

- 与强化学习的关系

GAN在语音方面的应用

- 语音信号生成

- 语音信号识别

- 结论

GAN在自然语言处理方面的应用

- GAN序列生成

- 无监督条件序列生成

原文链接:

https://interspeech2019.org/program/tutorials/

附部分PDF预览:

GAN的三个类别

GAN的基本思想

GAN从2014年发展至今,有了很大进步

条件GAN

条件GAN中,可由图片生成图片,声音生成图片,图片生成标签等应用

无监督条件GAN生成有两种方法:

  1. Cycle-GAN
  2. 共享一个隐空间

0 人点赞