FastSpeech系列一作:另辟蹊径的半个小镇做题家,不出国,不读博

2021-03-09 17:00:40 浏览数 (1)

导语:作为少数获得2020年度百度奖学金和字节奖学计划双奖的硕士生之一,任意对自己的人生定位一向清晰:不出国,不读博,毕业即就业。而这并不是往届浙大竺院多数学生的优先选择。

作者 | 陈彩娴

“如果你付出很多努力并拿了高分,而这些努力对你也有帮助,那我觉得这不是恶性竞争。”

作为计算机科学专业的学生,任意谈到,他对高校“内卷”现象的感受并不是很深。他认为,“如果在努力完成课堂大作业的过程中,大家能有许多收获,那也称不上‘内卷’”。

在2020年,与“内卷”热度不相上下的互联网流行词是“小镇做题家”。从某种意义上讲,两者都在试图传递国内高校学生的生存困境:激烈的竞争,有限的选择,匮乏的资源;有些人甚至同时具备两种身份:既是小镇做题家,又是内卷猎物。而从成长轨迹来看,任意介于两者之间。

目前就读于浙江大学计算机科学专业硕士二年级的任意,自称是“半个小镇做题家”:他从小在浙江省台州市长大,“虽然台州的经济不算落后,但毕竟是个小城市”;上高中时,他也很爱刷题,刷题数量可能排在“全校数一数二”。

但同时,他又是一名积极的竞赛分子,参加各种信息竞赛、物理竞赛与生物竞赛等等,曾获得2013年 NOIP 浙江赛区一等奖。 高中的竞赛经历让他看到:人生不是只有高考这一条路。这种“另辟蹊径”的思维,与早期体验多种可能而精力充沛的心性,也许是使任意突破刻板人生、开创自我成长的主要原因之一。

2015年,任意凭借自主招生和优异的高考成绩保送浙江大学竺可桢学院混合班。从小就热爱计算机的他在大二选专业时,毫不犹豫地选择了计算机科学与技术专业。与周围热衷于进实验室做科研、刷托福、准备申请出国的同学相比,他在本科阶段除了上课就是在校外实习,自认为成绩过得去就行,毕竟“计算机课程拿高分对个人的技术提升不一定有很大帮助”。

大四期间参加的微软亚洲研究院“乘风计划”,使他决定继续攻读研究生。尽管三年内发了 15 篇AI顶会论文,一作 7 篇,但任意对硕士毕业后的人生规划还是没有改变:不出国,不读博,⼀毕业就⼯作,希望尽早进入业界做出真正有利于业界发展的事。

1 不安分的竺院少年

浙江大学竺可桢学院(以下简称“竺院”)成立于2000年5月,以浙大前校长竺可桢的名字命名,是国内著名的本科学霸养成基地之一。

2015年,任意凭借全省第190名的优异高考成绩,从台州市路桥中学考入浙大竺院混合班。

以当年的高考成绩,他可以选择国内绝大多数高校,但他最终选择浙大,原因很简单:父亲也是浙大毕业的,对浙大比较有感情;二是觉得杭州不错,离家近。

对于本科生,竺院的培养方式是:大一先进行大类培养,大二开始任选专业,选本科导师,进实验室做科研。

虽然是大类培养,但任意刚上大学就决定选择计算机专业。

作为一名95后,计算机对任意来说并不陌生:自从小学三年级家里有了电脑开始,就喜欢捣鼓各种软件,喜欢在电脑上打游戏;第一次接触编程是在初三,参与一个自来水公司抄表机软件开发项目;高中参加了信息学竞赛,高二便获得 NOIP 浙江赛区一等奖。

根据2018年竺院就业报告显示,竺院毕业生的国内外深造率为88.76%,仅有7.49%的毕业生是直接就业。任意介绍,大二时,身边的很多同学(尤其是想出国留学的同学)都已经选择进入实验室做科研,考托福、准备GRE,为读研深造做准备。而他当时并没有决定读研深造从事科研,反而更偏向毕业直接工作。因此,在他当时看来,科研经历可有可无,于是找了一份创业公司(Dashbase)的远程实习,做工程开发。

凭借浙大的名声,竺院的发展平台和大一就已获得的国家奖学金等荣誉,若任意选择出国,拿名校offer应当是轻而易举。他提到,刚上大二时也考虑过出国,后来放弃出国的打算,也是基于自己的情况进行了仔细权衡:

任意谈到,他本身算是从小城市出来的,上大学前所接受的英语教育比不上杭州、宁波等大城市。在竺院招进来的学生中,除了排名在各省前500名的优秀高考录取生,还有从各省重点外国语学校保送进来的外语保送生。任意的英语虽然不算差,但与同级的外语保送生相比,也绝对不占优势。

“相比花很多时间去刷托福题目,以卵击石,我觉得不如做自己擅长和最喜欢的事,在自己的专业上获得成就感。”

另外,出国有两种选择,一是读硕士,二是读博士。

如果读硕士,路线基本是:读一年半到两年的 CS 硕士,毕业后去谷歌、Facebook等大厂做开发工程,工作两三年后,要么回国,要么拿到工作签或绿卡继续在国外生活;

至于读博,任意感觉不确定性比较大,因为要读5年,时间太长,并且以大三申请季时的科研经历(没有足够的科研经历与顶会论文的“撑腰”),他认为自己很难拿到国外好学校的博士offer。

出国深造的两条路线似乎都不符合他对人生的期望,异国他乡未必是追梦的理想乐园。因此,他没有再多想,就放弃了出国的打算。

既然不出国,那就去工业界看看。

大二那会,任意投了许多大公司的实习岗位,但由于年级太低,没有拿到理想的offer。一次偶然,他与高中时一起打竞赛的学长吃饭。这位学长当时还在读大三,虽然没有毕业,但由于技术能力过硬,已经在 Dashbase (一家总部位于硅谷的创业公司)担任杭州分公司的负责人。他们聊到找实习的事,学长提议他可以 Dashbase 试一试,便把他推荐给了公司的老板。

“大公司不要我,那我先去创业公司试一试也不错。”

抱着这样的想法,任意就去面试。实习的工作是日志搜索引擎相关的基础设施研发,偏工程开发,跟他当时想做的方向很吻合,于是他便开始了第一份实习工作。

四个月后,任意又找了网易人工智能事业部的实习机会,主要在考拉竞品匹配项目中做数据挖掘工作,偏算法落地,实习了六个月。直到2018年8月,也就是大三刚结束的暑假,任意进入微软亚洲研究院机器学习组担任研究实习生,才开始做科研。由此可以推断,与竺院的大部分同学相比,任意初入科研的时间并不算早。

对任意来说,竺院给予学生的自由,比科研能力的进步更重要。比如竺院的学生可以自由选择自己喜欢的专业,可以无条件转专业,还可以自由定制培养方案和课程。在这种“相互信任”的氛围下,他认为可以激发学生去把自己想做的事做好,有更多选择,更能激发学生的潜能。

在竺院读书期间,任意非常喜欢他的班主任甘智华教授。虽然专业不同,但甘老师非常关心学生的学业与生活,经常会带学生出去吃饭散心,在生活上给他带来了一种家的感觉。

毫无疑问,在竺院的四年学习生活大大地拓展了任意的视野:

“在竺院的人才筛选机制下,你会发现身边的同学都非常厉害;混合班里,室友来自各个专业最优秀的同学,你就可以接触到很多专业以外的学科知识,比如你想了解金融或是机械等计算机以外的知识,只要问问室友就知道了。”

与其他学院相比,竺院在课程的难度设置上更难,所学知识更全面;采用英文教材,布置作业“毫不留情面”。

比如,竺院有一门课叫《数学分析》。一般来说,工科的同学是学微积分。两者的区别是:微积分更多是计算,大多时候只要记住和理解公式就能解出答案;而数学分析更多是证明,对逻辑和思维的严谨度要求更高。

除了所选专业,竺院的学生一般都要学习计算机、物理、数学、化学等不同课程的知识,培养交叉型的人才。任意提到,他在竺院《普通物理》课程上学到的知识,也用在了之后的 AI 研究上。

2

微软亚研:“偏轨”人生

如果没有参加微软亚洲研究院的“乘风计划”,任意现在也许已经是一名在互联网大厂工作快两年的开发工程师。可以说,微软亚研的实习经历改变了他的规划:

“在做深度学习的研究之前,我是打算本科一毕业就找一份数据挖掘相关的算法工程工作。但去了亚研实习后,我开始觉得自己也有做科研的天赋,亚研也提供了很好的科研资源。”

图注:2018年8月,任意到 MSRA 实习

微软亚洲研究院的“乘风计划”设立于2012年,面向合作高校本科大四的学生提供6-12个月的实习机会,寻求培养计算机领域的一流本科生。

此前,“乘风计划”只向清北等学校的学生开放申请,但在任意读大三那一年,微软亚研第一次向浙大竺院提供了几个实习名额。任意对微软亚研崇拜已久,一直希望到微软亚研看看,于是投递了申请,并顺利获得实习名额。

在微软亚研,任意遇到了他人生中的第一个伯乐:谭旭。

谭旭所在的小组是机器学习组。当时,他去微软亚研面试,每位实习生可以填三个志愿小组,其中机器学习组只开放一个实习名额。任意对自己的履历并不自信,选了三个名额较多的小组。意外的是,谭旭无意中看到了他的简历,就让他去机器学习组面试。

“我当时也挺高兴的,好像被看中了一样。”

面试的过程非常顺利:谭旭出了一些机器学习相关的数学题和手写编程题,他都能正确回答;两个人聊了一些更宏观的话题,也聊得很开心,就这样通过了面试。

当时,任意对深度学习的了解并不多,因此入职前狂补深度学习的基础知识,但过程还算轻松,一是经过竺院和计算机学院的本科课程学习,使他的数理基础非常扎实,二是之前两段实习经历的工程化锻炼,使他具备了较强的代码能力与理解能力。所以,他在入职后很快上手,虽然会碰到很多问题,但“一边试一边学,碰到一点(问题)就解决一点”,不算吃力。

进入微软亚研后,任意先是跟着谭旭做了一个机器翻译的项目,负责跑实验,历时两个月,以共同一作身份在 ICLR 2019 发了第一篇顶会论文,“Multilingual Neural Machine Translation with Knowledge Distillation”。

在这篇工作中,他们提出了一种基于蒸馏的方法来提高多语言机器翻译的准确性:首先训练单个模型,并将模型作为“教师”;然后训练多语言模型来拟合训练数据,并通过知识蒸馏同时匹配单个模型的输出。他们在 IWSLT、WMT等文本翻译数据集上进行实验,证明了一个多语言模型可以处理多达 44 种语言,其准确度高于单个模型的表现。

任意记得,在第一篇顶会论文的准备中,自己很“拼”:在短短的两个月内,他一个人负责完成实验部分。截稿前几天,由于还有几个非常重要的实验没有跑出来,他就直接睡在了公司。睡一会就起来跑实验,实验运行下去后就倒下去睡一会,如此循环反复,一天只睡三四个小时,总算赶在 ddl 前跑出了理想的结果。

“那时第一次写论文,自己写的非常差,后来基本上被改的也完全不像我写的,哈哈。”谈到写论文,任意自己也忍不住笑出了声。

图注:任意在实习结束时与部门小伙伴的合照

在微软亚研实习期间,上级谭旭、秦涛与刘铁岩三人对任意产生了不同的影响。

谭旭之前在京东从事算法工程相关的工作,也是进入微软亚研后才正式开始从事人工智能的研究工作。任意到那里实习时,虽然谭旭加入微软亚研不久,但任意从谭旭身上学到了一套做非常完整的科研方法论,以及严谨的科研态度:“在讨论实验想法时,他的思路非常清晰,每个实验细节都抠得很严谨。同时,他的写作能力非常强,写出来的论文比很多博士写出来的都要精炼。”

秦涛是谭旭的上司,但对实习生也非常亲近,所以大家都叫他“涛哥”。令任意感触的是:虽然秦涛的级别很高,但对实习生的工作也十分上心。每次 ddl 之前都会帮大家改论文,一个词一个词地抠,有时候甚至改到凌晨 4 点。感觉是“只要觉得这个工作是我参与的,我都要把它改好,就像自己是一作一样。”

虽然与刘铁岩的接触不多,“如果他来参加小组会议,就说明他很重视这个工作,说明 topic 还是不错的”,但任意也能明显感受到大佬深厚的科研功力:“他给我们的建议都是从很高的层次出发。如果没有学界与业界相结合的资深经验,很难提出这样高屋建瓴的建议。”久而久之,任意慢慢也学习从不同的角度看问题,似乎总能获得新的观点。

在榜样的力量下,任意对自己的研究目标是成为像刘铁岩那样的学者,只要看到一篇论文就能指出这个工作的局限性,以及给出解决问题的方法。用程序员的话术,就是不仅擅长找 bug,还擅长修 bug。

在大四那年,任意发表了三篇顶会论文,均是一作。他表示,本科从事科研的成本是比较低的:他的绩点不低,就算没有取得科研成果,也能保研或找到一份不错的工作。所以,在那种比较宽松的、压力源较小的情况下,他能够更加专注于科研本身。

在微软亚研做科研的另一个优势是:与高校不同,学校老师可能同时带十几个学生,难以细细跟进每一个学生的工作,而当时的 mentor 谭旭只带两三个实习生。他们一天可以同步好几次工作:上午做了实验,得到结果后马上同步,讨论新的想法,然后下午再做实验,再同步。“我觉得在短期内对我push的效果是非常好的,特别是我之前所做的科研比较少,这样会激发我的很多创造力与想象力。”

与 Dashbase、网易相比,微软亚研更像是一个实验室,大家都在纯粹地做研究,不太以盈利为目的。

在机器学习组实习期间,与其他人的交流时,他有机会与其他科研人员一起讨论当前的主流方向,接触到了计算机视觉、NLP、语音、数据挖掘等多个领域,科研视野也大大拓宽:“当你的思路枯竭时,你可以从其他领域寻找解决办法。我有几个工作是用这种思路去做的,效果很好。”

科研能力的提升自然也增加了他做科研的自信。

“做工程时,只要每天都脚踏实地付出,一般都会取得成就与成果;而做科研的话,如果没有人引领和指导,上手会非常慢,可能努力一年也没有收获,得不出正反馈,对信心的打击是比较大的。”

“我觉得一个好的起步对于刚做科研的新手来说是非常重要的。80%的成功取决于起步好不好。它能给你非常大的信心。当然,起步不好的话也可以改方向或寻找其他机会,但会影响你前进的速度。”

也是在微软亚研的实习经历使他发现,其实国内的发展机会也很多,科研环境不一定比国外差。于是,任意“偏离”了他曾经规划好的“本科毕业就工作”的人生轨道,选择了保研,在本科毕设导师赵洲副教授的指导下继续攻读硕士学位。

3

FastSpeech:选择赛道少人的语音研究

2018年12月,距离微软亚研的实习结束还有两个月。当时任意从事的是机器翻译研究,但他觉得这方面的研究已经非常深入,很难再取得重大突破,恰好机器学习组也在尝试新的方向,于是任意开始琢磨下一个研究重点。

结合他的判断,计算机视觉不是首选,虽然身边许多人都在研究计算机视觉,但他认为,即使他加进大队伍中,基于他人的工作取得一些小成果,也不一定会对整个计算机视觉领域有很大帮助。

确定保研后,他曾去导师赵洲参与创立的公司一知智能拜访过。当时,一知智能正在做智能客服,也就是电话机器人,需要用到语音技术。但受限于成本与研发实力,他们都是购买大公司的技术。对很多小公司来说,当前语音的技术还不够成熟,没有一套完整的落地方案,导致模型开销非常大。

任意便想:如果研发出又快又好的语音合成技术,就能帮助很多企业,给他们提供更好的服务。他认为这是一个可以取得突破的方向,但研究语音的人很少,又是一个大好机会。加上语音技术与他之前所研究的机器翻译有很多相似点,于是任意便将研究重点转到了语音。

2019年2月,任意与谭旭合作完成了首个语音相关的工作,并结束微软亚研的六个月的实习。回到杭州后,任意加入了创业公司一知智能实习。因为公司规模小,任意接触到了各个部门的技术人员,很快在饭桌上了解到语音相关的业务,整个语音行业的发展情况、技术痛点等等。

在与一知智能几位研究语音技术的同事讨论语音接下来如何发展时,任意发现,目前工业界主流的语音合成的落地方案都是几年前的技术,只用到了非常简单的神经网络模型。在与微软亚研的同事沟通后,他想到了在语音合成中引进更高效、可落地部署的神经网络。随后,任意又将这一想法与导师赵洲讨论,赵洲老师也非常看好这一方向,并给予了许多建议。

接着,任意及一知·浙大联合实验室团队与微软亚研的前同事们合作,提出了一种基于 Transformer 的新型前馈网络 FastSpeech。在 LJSpeech数据集上的实验表明,FastSpeech不仅在语音质量方面与传统端到端自回归模型(如Tacotron 2和Transformer TTS)相媲美,还能够并行、稳定、可控地生成高质量的梅尔谱,再借助声码器并行地合成声音,将端到端的语音合成速度提高了30多倍。论文被 NeurIPS 2019 接收。

图注:任意在NeurIPS 2019分享工作

这是目前令任意感到最自豪的工作,历时约四个月。目前,FastSpeech已成功落地。国内许多公司(包括微软等知名大企)都在用 FastSpeech 做语音合成,百度也做了一些开源工作,在学术界也有较大影响,引用数已过百。

前不久,任意及团队又将技术升级,提出了 FastSpeech 2 与 FastSpeech 2s,在提升语音合成质量的同时,大大简化了训练流程,减少了训练时间,加快了合成速度。(更多详情参考 AI 科技评论之前发的《FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech 2》)

目前,任意已经在语音相关的研究上发表了 6 篇顶会论文。论文数量足够多之后,任意佛了:“如果一个工作对整个业界和语音社区的进步没有贡献的话,其实发不发表都无所谓。”接着他又补充了一句:“如果这个工作好,就算我不投顶会,把它挂在arXiv上,受到的关注度也还是很高的。”

现在,他也不会再追着 ddl 跑:“不投这个顶会,投下一个顶会也是可以的,关键是把工作做好。”

导师赵洲的研究方向主要是自然语言处理与多媒体关键技术研发,任意是赵洲老师实验室第一个从事语音研究的学生。因此,他们在语音探索上是共同学习与进步。

图注:任意与导师赵洲(右)讨论问题

任意提到,导师对科研非常重视,将学生的科研放在第一位,基本就是“我们做科研怎么舒适怎么来”;此外,赵洲老师为学生提供丰富的计算资源,学生出国参会时的差旅费,也都是由导师的经费支持。所以,任意可以心无旁骛地做科研,这也确实激发了他做科研的斗志。

在学术指导上,任意谈到,在每个顶会投稿截止前一周,赵洲老师都会召开一次批评大会,让每个人用 5 页 PPT 介绍自己的论文,然后由其他人帮助指出论文的问题与改正方法。任意觉得这个方法很有帮助,所以他们实验室的顶会中稿量很多。

如今,除了语音合成,任意还从事音乐合成的相关研究,包括歌声合成与伴奏生成。与本科期间自己亲手跑实验不同的是,任意现在带领几个正在读本科大三、大四的学弟做语音相关的研究,他负责提供 idea 、指导实验和写作,其他人来跑具体的实验部分。

图注:任意与多篇论文合作学弟刘静林讨论问题

由于任意取得卓越的研究成果,他入选了2020年度字节奖学计划,并获得了2020年度百度奖学金。

4

未来:往业界走

以当前的研究成果,任意成功申请全球顶尖高校博士生的概率非常大,但他很确定自己更喜欢业界。因此,硕士毕业后,他还是不打算出国,也不打算读博,而是准备进入国内大厂继续从事语音研究和转化。

“我感觉读博不会给我带来更多的提升,相比读博,我更想到工业界发挥自己的价值。”

至于以后会不会在职场晋升中因为学历不如博士而错过机会,任意表示自己并不担心。他认为互联网企业最看重的还是个人的能力,包括学习能力和解决问题的能力:

“至少在计算机专业上,攻读更高的学位意味着你可以用更多的时间来提高你的能力,证明你的潜力。但如果你的能力已经被学历以外的成就证明,那可能就不需要用学历说话。”

从往届获取百度奖学金的名单来看,任意是少数获得该荣誉的硕士生之一。他的经历在某种程度上指明了一个事实:虽然当下对学历的崇拜近乎狂热,导致出现许多“学历与岗位不相称”的现象(比如高校行政人员亦需硕博以上学历),但最终使个人突围而出的,仍是 TA 的自身能力所创造的价值。

人工智能的研究方向有许多,语言研究无疑其中一条赛道参与人员较少、发展前景乐观的研究道路。另辟蹊径,从新的视角看待问题,也许能避免参与到恶性的同类竞争中。

当然,最重要的还是:对自己有足够清晰的认知,并勇敢、坚定地迈出前进的步伐。哪怕是走一条人迹罕至的道路,付出努力,创造价值,也能迎来他人所鲜少感受到的曙光。

0 人点赞