周志华有3个希望、LeCun看好自监督学习,吴恩达携手9位AI领袖预测2020

2020-02-11 08:31:48 浏览数 (1)

【新智元导读

亲爱的朋友们,新年快乐!

每年寒假,我都会围绕一个新主题追求学习目标。在两次探访家人之中,我读了很多书。

大约十年前,我的学习主题是教育学——我还记得在机场拖着沉重的书箱——这对Coursera成立之初起有不少帮助。去年,在我的女儿Nova出生之前,我读了很多关于育儿保健的书。

这个假期,我一直在关注表观遗传学和新兴的抗衰老的科学(有时候可能是伪科学)。

我还拜访了自己101岁的祖父。我告诉他我正在读的书,他说保持好奇心是长寿的关键。

如果他是对的,那么我想你们中的很多人都会在101年之后依旧精神矍砾!

祝你有一个充满好奇、学习和爱的完美2020。

保持学习!

吴恩达

9位产业界和学术界专家寄语2020

随着机器学习在传统制造业中的使用,我们带着对繁荣的巨大期望进入了一个崭新的十年。然而,我们还面临着一些重要的问题:如何使用它而不会因不小心收集数据、敷衍的系统设计或我们的短视造成伤害。在这一期的特刊中,人工智能中的9位领袖表达了他们对2020年的展望。

Yann LeCun:自监督学习将大放异彩

许多人只要练习20小时,就能学会安全驾驶汽车,而目前的模仿学习算法则要花费数十万小时,强化学习算法要花费数百万小时,为什么?显然,我们忽视了一些重要的东西。

人类婴儿几乎无法与世界互动,但降生后的几个月时间,他们通过观察吸收了大量的背景知识。显然,人类大脑的很大一部分致力于了解世界的结构,并能够预测那些或是因为尚未发生,或是因为藏而不露,而无法直接观察到的事物。

这一现象表明,人工智能的前进方向就是我之前讲过的自监督学习。这类学习模式和监督学习类似,但是我们没有训练系统将数据实例映射到分类,而是隐藏了一些实例,并要求机器预测缺失的部分。比如我们可能会遮住视频的某些帧,并根据剩余的帧训练机器填补空白。

这类方法在自然语言理解方面已经取得了很大成功。像BERT、RoBERTa、XLNet和XLM等模型都是用自监督方式训练的,这类系统在所有主要的NLP基准测试中都保持着多项性能记录。

2020年,自监督方法能够在视频这样的高维连续数据上引发类似的革命吗?目前存在的一大问题是不确定性。像BERT这样的模型无法判断句子中缺失的单词是“猫”还是“狗”,但是可以产生概率分布向量。但对于图像或视频帧,目前还无法获得高质量的概率分布模型。但是最近的研究已经非常接近成功了。

Yann LeCun是Facebook副总裁兼首席AI科学家,纽约大学计算机科学教授,2018年图灵奖得主之一。

周志华:探索机器学习新领域,防范AI技术滥用

我对2020年有三个希望:

  • 希望能出现超越深度神经网络的更高级的机器学习技术。神经网络已经被许多研究人员,工程师和从业人员研究并应用了很长时间,对于其他机器学习技术,存在更多相对未开发的领域,为技术创新提供了更加广阔的空间。
  • 希望AI可以涉足更多领域,并为人们的日常生活带来更多积极的变化。
  • 希望能有更多的思考和讨论,讨论AI研究人员、工程师和从业人员应该如何做,以防止错误开发或滥用AI技术。

周志华,南京大学人工智能学院院长、计算机系教授。

大卫·帕特森:AI将实现更快的训练和推理

为打造新的AI硬件投入的数十亿美元将在2020年初见成效。

2017年,谷歌发布了TPU。在过去的一年中,来自阿里巴巴,Cerebras,Graphcore,Habana和Intel的专用AI处理器等产品都已推出。这些新芯片将慢慢进入研究实验室和数据中心。我希望AI社区能够利用其中最优秀的硬件,推动AI技术打造更好的模型,开发出更有价值的应用程序。

作为机器学习工程师,如何才能知道新替代方案的性能是否优于传统的CPU/GPU组合?

计算机体系结构是按照曲线,而不是绝对比例进行分级的。为了体现不同规模的计算机的性能,我们通过价格,功率或芯片数量对性能进行归一化处理。参与比较的模型可以选择一组代表性程序作为基准。与其中任何一个项目的分数相比,许多此类项目的平均分数更可能反映出真实的性能表现。

MLPerf是由50多家公司和9所大学的代表创建的最新机器学习基准。它包括用于测试推理和训练的程序、数据集和基本规则,并指定了诸如精度目标和有效超参数值之类的重要细节。MLPerf每三个月更新一次(交替进行推理和培训),以跟上机器学习的快速发展。

David Patterson是加州大学伯克利分校计算机科学教授。

Anima Anandkumar:模拟的力量

深度学习在有标记数据的情况下取得了巨大成功。现在是探索其他学习方式的时候了:无标签数据训练,终身学习,特别是让模型在将所学知识转移到现实世界之前探索模拟环境。到2020年,我希望在这些领域看到更多的研究。

高度仿真的模拟环境使我们能够更有效地训练和测试算法,从而产生更鲁棒和自适应的网络。模型在虚拟世界中获得的经验比在现实世界中获得的经验多得多。我们可以模拟一些罕见的事件,这些事件带来了严峻的挑战,但却很少用ground truth来表示。

例如,当我们开车的时候,事故很少发生。即使你开了几十万英里,也看不到有所变化。如果我们只根据真实世界的数据训练自动驾驶汽车,它们就不会学会如何处理导致事故的各种各样的情况。但是在模拟中,我们可以根据变化生成变化,给模型一个更好地反映现实世界可能性的数据分布,这样它就可以学习如何保持安全。

最近,模拟在强化学习方面取得了令人印象深刻的成果,而强化学习是数据密集型的。但它在监督学习中也很有用,因为研究人员可能只有少量的真实数据。例如,地震很罕见,也很难测量。但是加州理工学院地震实验室的研究人员使用了一个简单的物理模型来创建代表这些事件的合成数据。通过对合成数据的训练,他们的深度学习模型获得了最新的预测真实地震特性的结果。

在英伟达,我们开发了强大的模拟平台,如为自动驾驶开发的Drive Constellation和为机器人开发的Isaac。这些开放的、可扩展的环境使模型能够在一个真实感很强的虚拟世界中工作,并具有高度精确的物理特性。

我希望更多的人工智能科学家将认识到在模拟环境中训练的价值,以及在监督学习之外的其他技术。这将使2020年成为人工智能取得重大进展的一年。

Anima Anandkumar是英伟达的机器学习研究主管和加州理工学院的计算机科学教授。

Oren Etzioni:AI推进社会公平

我希望在2020年,AI社区能够切实直接地让更多的人群获益,推动社会公平问题的解决。

关于算法的公平性和透明性已经有了大量讨论,这当然是必不可少的。但是,开发具有实际影响力的软件工具必经之路。旨在改善人们生活的AI系统可以帮助解决社会中的一些重大挑战。

想象一下在轮椅上使用智能手机导航应用程序的感觉-只遇到沿路线的楼梯。如果用户无法自定义路线来避免无法克服的障碍,那么即使是最好的导航应用,也会带来重大挑战和风险。

现有技术可以为行动不便的人提供支持。但是我们可以做的更多。值得庆幸的是,我们生活在一个有能力触手可及的时代。

让工具更加便捷可达,面对教育问题、流浪人群、人口买卖等社会问题,AI可能对人们的生活质量产生更重大的积极影响。到目前为止,我们还只涉及问题表面。2020年,希望我们可以更深入地探讨这些问题。

Oren Etzioni是Allen AI学院的首席执行官,华盛顿大学计算机科学教授、Madrona Venture Group的合伙人。

Chelsea Finn:向多功能跨领域机器人迈进

AI社区中的许多人都专注于构建出色表现的智能体,比如打造可以在围棋和其他竞技游戏中获胜的智能体,这些项目往往非常复杂。但是我们很容易忽视另一个维度上的进展:泛化,也就是处理多领域多任务、或者在各种情况下实现操作的能力。2020年,我们有望在泛化领域建立起通用的模型。

我的工作中经常要利用强化学习来训练机器人,以了解其行为对周围环境的影响。这就对泛化能力提出了要求,比如需要机器人能够将目标包装到盒子中,或者将垃圾扫进簸箕。只靠强化学习很难做到这一点。

在监督学习中,比如在ImageNet的1400万张图片上训练图像识别模型时,往往会导致一定程度的泛化。在强化学习中,模型通过与虚拟环境进行交互,在收集数据的过程中进行学习。如果要为每新模型都收集一个ImageNet大小的数据集,那当然是不切实际的。

如果我们希望通过强化学习训练的系统能够实现泛化,需要设计可以在脱机数据集中探索环境的智能体,而且这些预先存在的数据集需要能够随时间的推移而增长,以反映周围世界的变化,就像ImageNet最初只有100万张图像,后来不断扩张一样。

目前这个趋势已经开始初露端倪。机器人可以通过自交互作用的数据集,在人类指导机器人手臂进行的演示中,学会来如何将新目标作为工具。更令人振奋的是,在强化学习中,围绕普遍性发展的临界质量不断提高。如果我们能够应对这些挑战,那么今后的机器人将比在现实世界中表现更为智能,而不是仅留在实验室中做一些表面智能的事情。

切尔西·芬恩(Chelsea Finn)是斯坦福大学计算机科学与电气工程系助理教授。

理查德·索赫:让信息海洋沸腾起来

在互联网时代,几乎所有人类知识都可以在搜索框中输入几个单词就能获得。但是,对这些海量知识和信息如何有效管理,仍然是一个巨大挑战。在阅读一篇长文之前,你很难知道能找到哪些有效信息,很难知道某个特定的陈述是否正确。

自动摘要可以解决这些问题。这是自然语言处理中最重要但尚未解决的任务之一。到2020年,自动摘要将迈出重要的一步,改变我们利用信息的方式。

目前用于训练自动摘要模型的数据集和性能衡量标准都存在严重缺陷。因此最终的模型也存在严重缺陷。Salesforce正在努力解决这些问题,研究人员使用ROUGE得分评估自动摘要的性能,这个标准主要量度源文档、自动摘要和人工撰写的摘要之间的单词重叠度。事实证明,基于神经网络的自动摘要模型即使犯错误,仍会获得较高的ROUGE分数。

我们的模型可以轻松检查源文档和摘要之间的事实一致性。我们提出的另一种指标,可用于评估自动摘要程序的事实一致性。除了ROUGE之外,可以按照这个指标对摘要生成器进行排名,有助于研究人员开发更好的模型。

2020年将是自动摘要模型乃至整个NLP技术爆发的绝佳时机。2020年的进步不仅可以让人们应对不断涌现的新信息,而且还将帮助人们拥抱AI创造更美好世界的巨大潜力。

Richard Socher是Salesforce的首席科学家。

宋晓冬:2020,携手共建负责任的数据经济

2020年有望成为我们为“负责任的数据经济”奠定基础的一年。

现在,用户几乎无法控制其生成数据的使用方式。各种数据都被共享和出售,包括位置信息,医疗处方,基因序列等。这种现象不仅会威胁到个人隐私安全,更可能威胁到国家安全。很多用户因此对应用程序失去了原来的信任。

同时,如何有效利用数据也困扰着企业。数据泄露问题越发严重,政府部门的法律监管措施越来越紧,很多有价值的数据被隔离无法获取,也阻碍了技术的进步。

要改变这个状况,构建负责任的数据经济,需要新技术,新法规和新业务模型。通过安全计算,审计能力以及维护数据隐私的机器学习为数据所有者(个人和企业)提供值得信赖的保护和控制。

Oasis Labs正在实现这一构想,未来还有很多事情要做。我希望技术人员,企业,监管机构和AI社区能够与我们一起,为构建真正负责任的数据经济奠定基础。

宋晓冬(Dawn Song)是Oasis Labs的首席执行官兼联合创始人、加州大学伯克利分校计算机科学和电气工程教授。

李开复:2020,AI无处不在

人工智能已经从发现时代转移到了实现时代。在银行,金融,运输,物流,超级市场,饭店,仓库,工厂,学校和药物发现中,人工智能和自动化技术都得到了蓬勃发展的应用程序。但总体而言,只有一小部分企业开始使用AI。AI的应用还有巨大的增长空间。

我认为,在人类技术进步的历史上,人工智能与电力一样重要。在未来的一两年中,人工智能将渗透到个人和企业生活中,从而提供更高的效率和更智能的体验。现在是企业,机构和政府充分拥抱人工智能并推动社会前进的时候了。

我对AI对医疗保健和教育的影响感到非常兴奋。这两个行业已经为迎接AI的颠覆性改变做好了准备。未来将有更多有前途的企业在2020年及以后的几年中拥抱AI。

李开复是Saivation Ventures董事长兼首席执行官。

0 人点赞