机器之心报道
作者:泽南、张倩
去年的谷歌 I/O 大会因疫情取消了,今天我们看到的,是谷歌积攒两年的重要技术。它们也是 AI 等领域里最接近未来的那一部分。
5 月 19 日凌晨,一年一度的谷歌 I/O 大会在线上召开,在谷歌园区户外进行的开场 Keynote 上,这家公司发布了一系列引人瞩目的全新产品。
「我们的目标一直是构建一个能够帮助所有人的谷歌,」谷歌首席执行官桑达尔 · 皮查伊说道。用 AI 为更多人提供便利是今天谷歌活动的主题。
在长达几个小时的发布会中,首先你要知道的黑科技是全息视频聊天技术 Project Starline。在疫情期间,很多人无法和亲人、朋友相聚,而谷歌推出的「聊天室」可以让你和远在天边的他们近距离碰面,互相问候、眼神交流,就像真的互相见到一样。
这看起来有点像实时的 3D 电影,又有点像《美国队长:内战》里钢铁侠在展示自己少年时的回忆。
实际上,这是由高分辨率传感器、数十个景深扫描传感器以及 65 英寸「光场显示器」重新生成的实时 3D 模型。谷歌表示这一项目已开发了数年之久,其背后是大量计算机视觉、机器学习、空间音频和数据压缩技术。谷歌还为此开发出了一套突破性的光场系统,让人无需佩戴眼镜或耳机即可感受到逼真的体积和深度感。
谷歌计划在今年晚些时候将 Project Starline 进行小范围的推广。除了和亲戚朋友打招呼,这类技术更多的应用场景应该还是远程会议,用惯了 zoom 的我们以后要体验「人在家中坐,领导飞过来」了。
Starline 当然只是 I/O 大会上众多新技术的一小部分。20 年前,谷歌率先将机器学习技术应用于搜索中,10 年前,Google Brain 团队 Quoc V. Le、Jeff Dean、吴恩达等人发表了著名的「识别猫」论文,其中研究人员利用一千台电脑的 1.6 万个处理器核心训练了一个图像识别的神经网络,它被很多人视为深度学习技术爆发的标志。
如今,谷歌的 AI 能力正让更多「不可能」变为现实,他们还要用量子计算等技术取得更多突破。
TPU v4,性能提升十倍
2016 年,谷歌发布了旗下首款定制 AI 芯片 TPU,与传统的 CPU GPU 组合相比,这类专用芯片在搜索、翻译、语音助手、图像识别等 AI 任务上有数量级的性能优势。这些芯片的应用为谷歌业务带来了优势,进而作为云服务算力的一部分供开发者使用。谷歌在 2018 年和 2019 年继续推出了 TPU v2 和 v3。
谷歌 TPU 虽然并不外卖,但一直被认为是人工智能时代机器学习专用加速芯片的典范。在今天的 I/O 大会上,谷歌发布了这款芯片的最新、最强版本。
如果只看芯片的数据,TPU v4 的算力是 v3 的两倍,而如果看实际性能,v4 实际上相比前一代提升了十倍之多,谷歌表示,这主要得益于系统内部的互联速度,以及架构方面的提升。
皮查伊表示,新的 TPU 实现了计算性能的里程碑式突破,要想实现 1 exaFLOP 级的算力(每秒 10 的 18 次方浮点运算),以前我们需要超级计算机和大量 GPU,现在只需一组 4096 块 TPU 组成的服务器就可以了。如今全球超算 Top 500 榜单第一名——日本的「富岳」最高性能只有它的一半。
与英伟达等芯片公司提出的新一代 AI 加速器类似,谷歌 TPU 效率提高的秘诀在于极快的芯片间互联技术,可以将数百块独立的芯片转变成紧密结合的单个系统来使用。皮查伊表示:「TPU pod 所有芯片间的大规模互联带宽是其他任何组网技术的十倍。」
TPU v4 已经部署在谷歌的数据中心中使用,今年晚些时候将向人们开放芯片实例。
另外,谷歌表示 TPU v4 更高的运算效率带来的好处是更环保。在未来部署的数据中心上,TPU 将使用近 90% 的无碳新能源运行。
MUM,比 BERT 强 1000 倍的多模态、多语言大模型
在 I/O 大会上,谷歌展示了使用 TPU v4 的人工智能应用。我们知道,如今很多 AI 应用是基于 Transformer 的,该模型在 2017 年由谷歌研究人员提出,用全 attention 的结构代替了 LSTM,在翻译任务上取得了更好的成绩。这项技术随后引发了预训练模型的技术突破。
很多人都知道阅读理解模型 BERT,其中的 T 是 Transformer;谷歌正在开发的搜索模型 T5,其中的 T 是 Transformer;如果你知道此前 OpenAI 提出的全球最大预训练 AI 模型 GPT-3,其中的 T 也代表 Transformer。
目前谷歌正在研究的模型是 MUM(Multitask Unified Model,多任务统一模型)。谷歌表示,虽然同样是基于 Transformer 架构,但 MUM 比 BERT 强 1000 倍。
从名字可以看出,MUM 是一种多模态模型,可以同时处理网页、图像等多种数据(未来还有可能扩展到音频、视频等)。这种多模态的设计使其非常适用于搜索。谷歌表示,如今的搜索引擎还不够智能,无法通过一次提问提供更加全面的信息,因此人们需要搜索多次。但有了 MUM 之后,这种问题可以得到缓解。
举例来说,你之前去过亚当斯山徒步,现在想去富士山,你想知道自己该做哪些准备。在这种情景下,你只需要把「我需要做什么准备」这个问题抛给搜索引擎,其背后的 MUM 就可以理解你所谓的「准备」包含哪些内容,比如两山之间的差别、需要进行哪些锻炼、携带哪些装备以及徒步的路线等,然后指向网络上有用的文章、视频和图像。
这种多模态还可以让你用文字之外的信息进行搜索,比如拍下自己的鞋子,问「我能穿着这双鞋子去富士山吗?」
此外,MUM 还是多语言的,使用了 75 种语言进行训练。这使其具备了在不同语言之间传递知识的能力。还是以上述问题为例,关于「富士山」的信息很多都是日语的,但有了 MUM 的加持,你用英语或其他语言也能搜到它们。
LaMDA:聊天不设限的语言模型
除了 MUM 之外,谷歌还在此次的 I/O 大会上公布了另一个基于 Transformer 的语言模型:LaMDA(Language Model for Dialogue Applications)。和 MUM 不同,LaMDA 是专门为对话打造的,而且是开放域对话。
谷歌表示,LaMDA 可以和人在无穷无尽的话题转换中聊下去。在接受对话训练的过程中,它掌握了开放式对话与其他语言的细微差别,尤其是「sensibleness」(合理)和具体。
举例来说,如果你对别人说,「I just started taking guitar lessons」人类的回答可能是:「How exciting! My mom has a vintage Martin that she loves to play」。在这句对话中,「How exciting」就是一种合理的回答,但同时我们也注意到,这句话几乎也是放之四海而皆准的(就像「我不知道」),因此并不能完整地体现对话机器人的智能性。而后面那句「My mom has a vintage Martin that she loves to play」才是人类对话更重要的特点:合乎语境且具体。谷歌表示,这就是他们的 LaMDA 所学到的内容。
谷歌还表示,LaMDA 是基于他们 2020 年的一项研究。研究链接:https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html
「拍一拍」诊断皮肤病
手机拍照除了可以翻译、做数学题、检测空气质量,现在还能看病。利用 AI 诊断疾病是很多公司在过去几年发力的方向,在这次 I/O 上,谷歌也分享了他们在结核病等方面取得的进展。但比较有意思的是,他们把部分疾病的诊断直接和手机摄像头整合到了一起,帮助你随时了解和自己的皮肤、头发及指甲相关的问题。
谷歌表示,开发这一应用是因为他们每年都能看到接近 100 亿个关于皮肤、指甲和头发问题的搜索。全球有 20 亿人患有皮肤病,因此皮肤病专家的数量是远远不够的。为了训练这一模型,他们使用了大约 65000 张图像和诊断皮肤状况的病例脱敏数据、数百万张精心制作的皮肤相关的图像和数以千计的健康皮肤样本,这些数据来自不同年龄、性别、种族的人群。在此之前,他们关于皮肤病的研究登上过《自然 · 医学》等期刊。
当然,这些诊断结果只是初步判断,患者的后续治疗仍然需要咨询医生。谷歌表示,他们将在今年晚些时候上线试用版。
100 万个物理比特的量子计算机
早在 2019 年,谷歌量子计算实验室实现「量子优越性」的消息就登上了《自然》的封面。谷歌已经利用一台 54 量子比特的量子计算机实现了传统架构计算机无法完成的任务。在当时的世界第一超算需要计算 1 万年的实验中,谷歌的量子计算机只用了 3 分 20 秒。
虽然这项研究一经发表就受到了 IBM 等同行的质疑,量子计算距离实用化还存在这样那样的挑战,但毫无疑问,在摩尔定律逐渐失效的今天,寻找未来计算机架构正愈发显得迫在眉睫,而量子计算机是其中极具希望的方向。
在 I/O 大会上,谷歌展示了更大的野心:他们想用 100 万个物理量子比特建造一台有纠错能力的量子计算机。相比于今天还不到 100 个物理比特的量子计算机来说,这个构想真的很大胆。
图源:https://www.cnet.com/news/quantum-computer-makers-like-their-odds-for-big-progress-soon/
根据计划,这些量子比特仍将运行在接近绝对零度的温度下。谷歌乐观估计会在这个十年结束之前实现此构想。
众所周知,虽然量子计算机具有在某些问题上(比如大数因子分解和无序数据库搜索)远超经典计算机的运算能力。然而,存储量子信息的物理系统不可避免会与环境相互作用,受到噪声的影响而失去量子特性,进而失去准确计算的能力。这里的噪声可能仅仅是一点点热量。
要想纠正一个量子比特的错误,我们需要很多个围绕在该量子比特周围的其他物理量子比特。这些物理量子比特可以组成一个「逻辑量子比特」。谷歌表示,他们将通过把 1000 个物理量子比特束缚到一起来构建这个逻辑量子比特,从而达到纠错的目的。
如果真能做到这一点,我们就拥有了一个可以持续工作的「完美量子比特」,就像普通的计算机一样。这将会是一个重要的里程碑。有了一个能够纠错的量子比特之后,我们就可以将两个(或更多)这样的逻辑量子比特组合到一起,就像量子时代的晶体管一样。构建 1000 个逻辑量子比特可能需要上百万的物理比特,整个机器可能会占满一个房间。
在本次 I/O 大会上,谷歌介绍了他们为实现这一愿景打造的「量子 AI 园区」。该园区位于加州圣塔芭芭拉市,里面有谷歌的第一个量子数据中心、量子硬件研究实验室以及他们自己的量子处理器芯片制造设施。
谷歌表示,建造这样的量子计算机是为了拥有前所未有的计算能力,从而解决新药研发等问题。
Android 12 和 WearOS
虽然安卓 12 的特性已经在此前的开发者预览版中被剧透过不少,但在 I/O 大会上谷歌发布的大幅度更新提供了更多正式版的细节。
对于使用者来说,最为明显的更新就是全新的主题了,Android 12 将采用全新的「Material You」设计,提供了大量自定义风格和功能。谷歌在原来的黑白两色之外加入了动态主题颜色,其可以根据用户选择的壁纸选择对应的特殊颜色。此外所有按钮、滑块和所有其他 UI 窗口小部件均已重塑和重新排列。
此外全新的滚动列表设计出现在了安卓 12 上,就像三星手机的 OneUI 上一样。在桌面上谷歌反倒向苹果学习,新的标准化 widget 就像 app 的大「图标」一样包含大量详细内容,这样的设计可以在如今手机普遍较大的屏幕上展示更多。
此外,谷歌还在新安卓系统中还提供了大量有关隐私保护的功能。目前 Android 12 的 Beta 版已经正式推出,支持 11 家手机厂商的设备。
在 IO 大会上,谷歌也放出了最新版 Wear OS 的消息。虽然根据统计,2020 年全球可穿戴设备出货已达 1.93 亿只,智能手表和手环在人们的生活中出现得越来越频繁,但手表届的安卓 Wear OS 存在感一直比较稀薄。Wear OS 的最后一次重大设计变更还是在 2018 年。
新版本的 WearOS 更名为 Wear,获得了更多厂商的支持,三星下一代智能手表 Galaxy Watch 4 将使用基于这一架构的 Tizen 系统,从而使得应用运行更快,更加省电。
除此之外,谷歌还发布了协作式办公套件 Smart canvas 等一系列工具,并在 Google Map 中首次加入了详尽的自行车导航功能,并对 Google Meets 进行了大量技术更新。
有关本次 I/O 大会的更多细节,可以参考谷歌的 I/O 专题界面或观看回放。
专题页面地址:https://www.blog.google/