7 Papers & Radios | 香港理工最新GAN综述论文；小鹏汽车判别式多模态语音识别

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周的重要论文包括香港理工大学的最新GAN综述论文以及小鹏汽车提出的判别式多模态语音识别模型。

Machine Learning on Graphs: A Model and Comprehensive Taxonomy
Generative Adversarial Networks (GANs): Challenges, Solutions, and Future Directions
BLEURT: Learning Robust Metrics for Text Generation
CONFIG: Controllable Neural Face Image Generation
IterDet: Iterative Scheme for Object Detection in Crowded Environments
A Survey on Dialog Management
Discriminative Multi-modality Speech Recognition
ArXiv Weekly Radiostation：NLP、CV、ML更多精选论文（附音频）

论文 1：Machine Learning on Graphs: A Model and Comprehensive Taxonomy

作者：Ines Chami、Sami Abu-El-Haija、Bryan Perozzi、Christopher Ré、Kevin Murphy
论文链接：https://arxiv.org/pdf/2005.03675v1.pdf

摘要：在本文中，来自斯坦福、南加州大学和 Google AI 的研究者提出了图结构数据表征学习方法的综合分类法，旨在统一几个不同的研究主体。具体而言，他们提出了图编码器-解码器模型（Graph Encoder Decoder Model, GraphEDM）框架，从而将常用的图半监督学习（如 GraphSage、GCN 和图注意力网络）和图表征无监督学习（如 DeepWalk 和 node2vec）算法泛化为一种统一的方法。为了阐明这种方法的通用性，研究者将 30 多种现有方法拟合添加进框架中。他们认为这种统一的观点既可以为理解方法背后的直觉提供坚实基础，也能促进该领域未来的研究。

GraphEDM 框架示意图。

图表征学习方法的分类。

推荐：对于领域内实践者来说，他们可以参考这种分类法，以更好地理解可用工具和应用，并轻松地找出解决给定问题的最佳方法。

论文 2：Generative Adversarial Networks (GANs): Challenges, Solutions, and Future Directions

作者：Divya Saxena、Jiannong Cao
论文链接：https://arxiv.org/ftp/arxiv/papers/2005/2005.00065.pdf

摘要：在本文中，来自香港理工大学的研究者对 GAN 设计的进展以及解决 GAN 挑战的优化解决方案进行了全面综述性研究。他们首先指出每个 GAN 设计和优化方法存在的主要研究问题，然后提出新的分类法对相应解决方案进行结构化整理。基于这种新的分类法，研究者对每个解决方案提出的不同 GAN 变体以及它们之间的关系展开了详尽的讨论。最后，研究者根据得出的见解提出了这一快速发展领域中的有前途研究方向。

2014 至 2018 年，GAN 在图像生成领域展现出来的能力取得了长足进步。

GAN 的基本架构图。

本研究中提出的新的分类法。

推荐：这篇 GAN 综述论文长达 41 页，主要亮点是基于重新设计后的网络架构、新的目标函数和优化算法提出了 GAN 设计和优化方法的新分类法，并探讨了现有研究工作如何解决存在的挑战。

论文 3：BLEURT: Learning Robust Metrics for Text Generation

作者：Thibault Sellam、Dipanjan Das、Ankur P. Parikh
论文链接：https://arxiv.org/pdf/2004.04696.pdf

摘要：过去几年，文本生成取得了显著的进展。但是，评估指标却出现了滞后，这是因为 BLEU 和 ROUGE 等最流行的机器翻译自动评估方法可能与人类的判断关系不大。

在本文中，来自谷歌研究院的三位作者提出了 BLEURT，这是一种基于 BERT 的学习评估指标，它可以利用数千个可能存有偏见的训练样本来建模人类判断。该方法的关键点在于新型预训练方案使用数百万个样本来帮助模型实现泛化。实验表明，本研究提出的 BLEURT 在过去三年的 WMT 指标共享任务和 WebNLG 竞赛数据集上均取得了 SOTA 结果。与基于 BERT 的普通方法相比，BLEURT 即使在训练数据稀少且分布不均的情况下也能取得更好的结果。

在 WMT17 指标共享任务上的对比结果。

在 WMT18 指标共享任务上的对比结果。

在 WMT19 指标共享任务上的对比结果。

推荐：BLEURT 是一种基于推理的英文文本生成指标，由于它是端到端训练的，所以可以更加准确地建模人类评估。

论文 4：CONFIG: Controllable Neural Face Image Generation

作者：Marek Kowalski、Stephan J. Garbin、Jamie Shotton 等
论文链接：https://arxiv.org/pdf/2005.02671v2.pdf

摘要：在本文中，来自微软的研究者提出了一种神经人脸模型 ConfigNet，通过语义上有意义的方式控制输出图像的各个方面，从而朝着精细控制神经渲染迈出重要一步。ConfigNet 在真实面部图像和合成面部渲染上进行训练，该方法使用合成数据将潜在空间分解为与传统渲染 pipeline 输入相对应的元素，从而将头部姿势、面部神情、发型和光照等诸多方面分解。最后研究者提出了一种使用属性检测网络与用户研究相结合的评估标准，并实现了对输出图像属性的 SOTA 单独控制。

ConfigNet 学习分解的潜在空间，其中每一部分对应不同的面部属性。

ConfigNet 具有真实图像编码器 E_R 和合成数据编码器 E_S，它们对真实人脸图像 I_R 和合成人脸图像 I_S 的参数θ进行编码。

ConfigNet（左）和 PupperGAN（右）方法的效果比较。

推荐：这种新型人脸图像合成方法使得对输出图像的控制达到了前所未有的高度。

论文 5：IterDet: Iterative Scheme for Object Detection in Crowded Environments

作者：Yinqiao Li、Chi Hu、Yuhao Zhang 等
论文链接：https://arxiv.org/pdf/2005.02593.pdf

摘要：网络结构搜索技术近些年获得了广泛的关注，但是其搜索空间往往被限缩在元结构内部（循环单元或卷积单元等），缺乏对模型整体架构的学习。针对此问题，来自东北大学自然语言处理实验室和小牛技术创新中心的研究者提出一种能够同时对元结构内以及元结构之间连接进行搜索的方法（ESS），从而获得更适用于当前任务的模型结构。

本文旨在拓展网络结构搜索的搜索空间。实验部分以循环神经网络为例，在语言模型的 PTB、WikiText-103 集合中取得了优异的成绩，其中 PTB 数据上达到了目前业内最优的结果。此外，研究者将语言模型任务中搜索到的模型结构迁移到 NER、Chunking 等任务中同样获得了突出的性能，这使得大规模预搜索网络结构成为了可能。

循环神经网络中的元结构内（a）和元结构间（b）连接。

循环神经网络中元结构内部以及元结构之间结构搜索示意。

语言模型任务（PTB 和 WikiText-103）上 ESS 方法搜索得到的结构同其他结构的性能对比。

推荐：这种方法能够同时对元结构内部以及元结构之间的连接进行学习，在语言模型的任务上获得了明显的性能提升。本文已入选 ACL 2020。

论文 6：A Survey on Dialog Management

作者：Yinpei Dai、Huihua Yu、Yixuan Jiang、Chengguang Tang、Yongbin Li、Jian Sun
论文链接：https://arxiv.org/pdf/2005.02233.pdf

摘要：对话管理（Dialog Management, DM）是任务导向型对话系统的重要组成组件。给定对话历史，DM 可以预测对话状态并决定对话智能体应该采取的下一步行动。最近，对话策略学习（dialog policy learning）作为一种强化学习问题得到了广泛的论证，越来越多的研究也开始重点关注 DM 的适用性。

在本文中，来自阿里巴巴和康奈尔大学的研究者调研了 DM 以下三个重要主题的新进展以及存在的挑战：（1）提升模型可扩展性以促进新场景下的对话系统建模；（2）解决对话策略学习的数据稀疏问题；（3）提升训练效率以实现完成任务所需的更佳性能。研究者认为本研究可以为对话管理的未来研究提供一些启示。

任务导向型对话系统的模块结构。

任务导向型对话系统的端到端结构。

对话管理模型设计四步骤：智能体到智能体的 self-play、监督学习、强化学习和在线学习。

推荐：在本研究中，读者可以了解到阿里达摩院智能机器人对话 AI 团队开发的对话管理模型的当前进展。

论文 7：Discriminative Multi-modality Speech Recognition

作者：Bo Xu、Cheng Lu、Yandong Guo、Jacob Wang
论文链接：https://arxiv.org/pdf/2005.05592.pdf

摘要：视觉通常被用作音频语言识别（audio speech recognition, ASR）的补充模态，尤其是在单独音频模态性能显著下降的噪声环境中。在与视觉模态结合后，ASR 升级为多模态语音识别（multi-modality speech recognition, MSR）。

在本文中，来自小鹏汽车的研究者提出了一种两阶段语音识别模型。在第一阶段，通过唇动视觉信息将目标语音从背景噪声中分离开来，使模型「听得」更清楚；在第二阶段，音频模态再次结合视觉模态，从而通过 MSR 子网络更好地理解语音进而提升识别率。

此外，本研究还做出了以下一些重要贡献：提出了基于拟 3D 残差卷积的视觉前端，以提取更多的判别特征；将时序卷积块从 1D ResNet 更新到更适合时序任务的时序卷积网络（temporal convolutional network, TCN）；MSR 建构在元素级注意力门控循环单元（Element-wise-Attention Gated Recurrent Unit, EleAtt-GRU），这在长序列中比 Transformer 更有效。研究者在 LRS3-TED 和 LRW 数据集上进行了实验，结果表明两阶段模型（音频增强多模态语音识别模型，AE-MSR）始终以显著优势实现 SOTA 性能，从而验证了 AE-MSR 的必要性和有效性。

音频增强多模态语音识别网络（AE-MSR）概览。

本研究中具有双重视觉意识（AE-MSR）的多模态语音识别网络架构图，其中 AE-MSR 网络包含两个子网络：（a）音频增强子网络；（b）多模态语音识别子网络。

LRS3-TED 数据集上，单视觉模态意识的音频语音识别（ASR）和双视觉模态意识的多模态语音识别（MSR）的误字率对比。

推荐：值得关注的是，本研究提出的两阶段语音识别模型在 LRS3-TED 和 LRW 数据集上显著优于当前 SOTA 模型。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for Multi-Document Summarization. (from Yang Gao, Wei Zhao, Steffen Eger)

2. Extracting Headless MWEs from Dependency Parse Trees: Parsing, Tagging, and Joint Modeling Approaches. (from Tianze Shi, Lillian Lee)

3. Beyond Accuracy: Behavioral Testing of NLP models with CheckList. (from Marco Tulio Ribeiro, Tongshuang Wu, Carlos Guestrin, Sameer Singh)

4. Unsupervised Multimodal Neural Machine Translation with Pseudo Visual Pivoting. (from Po-Yao Huang, Junjie Hu, Xiaojun Chang, Alexander Hauptmann)

5. Learning to Segment Actions from Observation and Narration. (from Daniel Fried, Jean-Baptiste Alayrac, Phil Blunsom, Chris Dyer, Stephen Clark, Aida Nematzadeh)

6. Learning to Detect Unacceptable Machine Translations for Downstream Tasks. (from Meng Zhang, Xin Jiang, Yang Liu, Qun Liu)

7. SentiBERT: A Transferable Transformer-Based Architecture for Compositional Sentiment Semantics. (from Da Yin, Tao Meng, Kai-Wei Chang)

8. DramaQA: Character-Centered Video Story Understanding with Hierarchical QA. (from Seongho Choi, Kyoung-Woon On, Yu-Jung Heo, Ahjeong Seo, Youwon Jang, Seungchan Lee, Minsu Lee, Byoung-Tak Zhang)

9. Does Multi-Encoder Help? A Case Study on Context-Aware Neural Machine Translation. (from Bei Li, Hui Liu, Ziyang Wang, Yufan Jiang, Tong Xiao, Jingbo Zhu, Tongran Liu, Changliang Li)

10. MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis. (from Devamanyu Hazarika, Roger Zimmermann, Soujanya Poria)

本周 10 篇 CV 精选论文是：

1. Condensed Movies: Story Based Retrieval with Contextual Embeddings. (from Max Bain, Arsha Nagrani, Andrew Brown, Andrew Zisserman)

2. Effective Data Fusion with Generalized Vegetation Index: Evidence from Land Cover Segmentation in Agriculture. (from Hao Sheng, Xiao Chen, Jingyi Su, Ram Rajagopal, Andrew Ng)

3. Text Synopsis Generation for Egocentric Videos. (from Aidean Sharghi, Niels da Vitoria Lobo, Mubarak Shah)

4. Efficient convolutional neural networks with smaller filters for human activity recognition using wearable sensors. (from Yin Tang, Qi Teng, Lei Zhang, Fuhong Min, Jun He)

5. SurfelGAN: Synthesizing Realistic Sensor Data for Autonomous Driving. (from Zhenpei Yang, Yuning Chai, Dragomir Anguelov, Yin Zhou, Pei Sun, Dumitru Erhan, Sean Rafferty, Henrik Kretzschmar)

6. Self-Supervised Human Depth Estimation from Monocular Videos. (from Feitong Tan, Hao Zhu, Zhaopeng Cui, Siyu Zhu, Marc Pollefeys, Ping Tan)

7. On Vocabulary Reliance in Scene Text Recognition. (from Zhaoyi Wan, Jielei Zhang, Liang Zhang, Jiebo Luo, Cong Yao)

8. Enhancing Geometric Factors in Model Learning and Inference for Object Detection and Instance Segmentation. (from Zhaohui Zheng, Ping Wang, Dongwei Ren, Wei Liu, Rongguang Ye, Qinghua Hu, Wangmeng Zuo)

9. NTIRE 2020 Challenge on Real Image Denoising: Dataset, Methods and Results. (from Abdelrahman Abdelhamed, Mahmoud Afifi, Radu Timofte, Michael S. Brown, Yue Cao, Zhilu Zhang, Wangmeng Zuo, Xiaoling Zhang, Jiye Liu, Wendong Chen, Changyuan Wen, Meng Liu, Shuailin Lv, Yunchao Zhang, Zhihong Pan, Baopu Li, Teng Xi, Yanwen Fan, Xiyu Yu, Gang Zhang, Jingtuo Liu, Junyu Han, Errui Ding, Songhyun Yu, Bumjun Park, Jechang Jeong, Shuai Liu等)

10. Regression Forest-Based Atlas Localization and Direction Specific Atlas Generation for Pancreas Segmentation. (from Masahiro Oda, Natsuki Shimizu, Ken'ichi Karasawa, Yukitaka Nimura, Takayuki Kitasaka, Kazunari Misawa, Michitaka Fujiwara, Daniel Rueckert, Kensaku Mori)

本周 10 篇 ML 精选论文是：

1. Successfully Applying the Stabilized Lottery Ticket Hypothesis to the Transformer Architecture. (from Christopher Brix, Parnia Bahar, Hermann Ney)

2. Machine Learning on Graphs: A Model and Comprehensive Taxonomy. (from Ines Chami, Sami Abu-El-Haija, Bryan Perozzi, Christopher Ré, Kevin Murphy)

3. Physics-informed neural network for ultrasound nondestructive quantification of surface breaking cracks. (from Khemraj Shukla, Patricio Clark Di Leoni, James Blackshire, Daniel Sparkman, George Em Karniadakis)

4. Sherpa: Robust Hyperparameter Optimization for Machine Learning. (from Lars Hertel, Julian Collado, Peter Sadowski, Jordan Ott, Pierre Baldi)

5. Plan2Vec: Unsupervised Representation Learning by Latent Plans. (from Ge Yang, Amy Zhang, Ari S. Morcos, Joelle Pineau, Pieter Abbeel, Roberto Calandra)

6. Reinforcement Learning with Feedback Graphs. (from Christoph Dann, Yishay Mansour, Mehryar Mohri, Ayush Sekhari, Karthik Sridharan)

7. Is an Affine Constraint Needed for Affine Subspace Clustering?. (from Chong You, Chun-Guang Li, Daniel P. Robinson, Rene Vidal)

8. Reducing Communication in Graph Neural Network Training. (from Alok Tripathy, Katherine Yelick, Aydin Buluc)

9. Deep learning of physical laws from scarce data. (from Zhao Chen, Yang Liu, Hao Sun)

10. Multi-Instance Multi-Label Learning for Gene Mutation Prediction in Hepatocellular Carcinoma. (from Kaixin Xu, Ziyuan Zhao, Jiapan Gu, Zeng Zeng, Chan Wan Ying, Lim Kheng Choon, Thng Choon Hua, Pierce KH Chow)

语音识别数据结构 linux 学习方法 https

0 人点赞