虽然在图像计算市场上独占鳌头,并引领了最近一次深度学习浪潮,但英伟达仍在不断寻求开拓新领域。在刚刚结束的 GTC 2019 大会上,这家公司推出了 RTX Server、Data Science Server、Jetson Nano 等全新计算设备,以及大量软件工具,试图把自己的业务扩展到数据科学和超小型 IoT 设备等方面。
这已是英伟达举办的第十届 GTC,只可惜今天还是没有人们期待已久的「安培」架构 7 纳米制程显卡。
「像所有大会的 Keynote 一样,我得为今天的 GTC 演讲搞出一个简称。今天的世界是——Prada!」黄仁勋以这样的开场白介绍道。名为 Prada 并不意味着英伟达的显卡变成了奢侈品。它的意思是:
programmable
acceleration
domain
architecture
——可编程加速领域架构
与 Prada 相反的是,使用英伟达芯片还可以让你更省钱。
作为 GTC 2019 系列的起始,本次英伟达还是发布了大量重要新产品。
CUDA-X:GPU 加速的计算库
会上,黄仁勋发布全新的 GPU 加速的计算库 CUDA-X,该计算库捆绑了英伟达所有的库,解锁了 Tensor Core GPU 的所有灵活性,可以加速:
- 数据科学,从数据摄取到 ETL,再到模型训练和部署
- 用于回归、分类和聚类的机器学习算法
- 所有机器学习训练框架,此次发布之后,还可以自动优化英伟达 Tensor Core GPU
- 推理和大规模 Kubernete 在云端的部署
- 个人电脑、工作站、超级计算机云和企业数据中心上的数据科学
- 亚马逊云服务、谷歌云和微软 Azure AI 服务商的数据科学
CUDA-X 加速了数据科学。英伟达今天在 GTC 上介绍的 CUDA-X AI 是用于数据科学加速的唯一端到端平台。
随着企业转向人工智能(深度学习、机器学习和数据分析),为了使数据更有用,CUDA-X AI 应运而生。所有这些任务的典型工作流程都是:数据处理、特征确定、训练、验证和部署。CUDA-X AI 释放了英伟达 Tensor Core GPU 的灵活性,以独特的方式解决这种端到端人工智能工作流程。
CUDA-X AI 能够将机器学习和数据科学工作负载加快 50 倍,包含十几个专门的加速库。它已经在用 cuDF 加速数据分析,用 cuDNN 加速深度学习基元;用 cuML 加速机器学习算法;用 DALI 加速数据处理等。
总之,这些库加速了典型 AI 工作流程的每一步,无论是用深度学习来训练语音识别和图像识别系统还是用数据分析来评估按揭风险。这些工作流程中的每一步都需要处理大量数据,每一步都受益于 GPU 加速计算。
鼓励创新的软件工具
在现场,英伟达还发布了 Clara AI Toolkit,这是一个开放的、可延展的计算平台,让开发者能够在混合的计算环境(嵌入、预置或者云)中建立、部署医疗图像应用,从而创造智能仪器和自动化的医疗工作流。为了帮助各领域的 AI 研发,Clara 中已有很多预训练模型,来自各行业的开发者可以直接使用这些模型,并将其转化为自己的专有工具。很多医疗机构现在已经在使用 Clara 了。
今天已有 100 万建筑师、300 万设计师、300 万 3D 设计师,200 万机械设计师在使用 RTX 技术开发产品了。很多专业软件也已开始支持 RTX 技术。其中包括 Adobe、Autodesk 等等。英伟达表示,已有 80% 的业界公司支持 RTX 技术。
制作 3D 动画是一项复杂的过程,当前全球已有 200 余家动画制作工作室,它们各自都在使用自身的软件和工作形态。英伟达希望能够通过一种统一的平台让各家工作室协同合作,从而提升效率,这就是 NVIDIA Omniverse。在 GTC 上,黄仁勋展示了未来 3D 动画开发的新流程:Autodesk Maya、虚幻引擎、SUBSTANCE 等不同软件,不同地区的工作室都可以在 Omniverse 上开发模型,所有进度都是互相即时可见的。
「Omniverse 可以让全世界的 3D 设计工作室联合起来。」黄仁勋表示。
一部分设计者调整模型,一部分设计场景,一部分修改颜色和贴图,所有工作都可以同时进行,大大提升了工作效率。「这就是 3D 图像领域的谷歌文档。」黄仁勋表示。
面向 5G 的云服务器
既然是 GTC 大会,就必然会推出新硬件。随着低延迟无线通信网络 5G 的临近,很多软硬件厂商一直推崇的「云串流游戏」业务也正逐渐变得现实起来。英伟达很早就已推出自己的云游戏计划:「GeForce Now」,不过由于延迟和带宽的问题,目前游戏的体验还没有达到想象中的完美程度。
「GeForce Now 现在已经有 30 万玩家、500 多款游戏了。」黄仁勋介绍道。「它并不是游戏届的 Netflix,而是在云端进行图像计算,实时将画面传送到本地进行的。」如果这个设想不久以后真正流行开来,没有强大 GPU 显卡的玩家就也能随时随地玩到最高画质的游戏了。在云端计算的游戏 stream 到本地,就像看视频一样,即使是在手机上我们也可以获得最强的图像体验。
为了满足全球各地玩家的需求,英伟达已经设立了 15 个数据中心提供算力。但对于云游戏服务来说这还远远不够,英伟达提出了 Geforce Now Alliance,邀请更多公司提供自己的算力,加入支持 GeForce now 的行列,首期加入的有 Softbank 和 LG U 。
有了合作伙伴,如何保证服务器的工作效率?英伟达还推出了 RTX Server 来保证算力。
这是一种性能强大的服务器设计,在 8U 的空间里可以容纳 40 块 Turing 架构的 GPU(GeForce RTX 2080),而整个服务器系统可以整合 32 套 RTX Server,在 10 个机架的空间内提供多达 1280 块 GPU 的算力,服务器之间使用 Mellanox 的技术实现高速连接。一个 RTX Server 系统可以供应多达 1 万名玩家同时进行游戏。
英伟达表示,8U 的 RTX Server 将会在今年的第三季度出货。
黄仁勋:买的越多,省的越多?现在错了,使用 RTX Server,五年之后你省下的电费相当于这是一台免费的服务器!
「数据科学是目前发展最快的科学。」黄仁勋表示,英伟达这次在「超级计算」和「Hyper Scale」之间找到了新的产业痛点「数据科学」。这是一个对于并联计算效率要求很高,同时业需求大量算力的领域。新推出的 RTX Server 和此前提出的 DGX-2 正好符合这一领域的需求。
最小 AI 计算机:Jetson Nano
一届 GTC 上没有芯片是无法想象的,这一次英伟达发布的产品是历届大会上最小的,正如其名:Jetson Nano。
在今天的 GTC 大会上,黄仁勋发布了两版 Jetson Nano:面向开发者、爱好者的 99 美元开发包;以及面向公司的 129 美元的产品模块。英伟达 Jetson 家族又有了新成员,如今包括面向自动驾驶的 Jetson AGX Xavier、面向边缘 AI 的 Jetson TX2。
Jetson Nano 及其开发板。
据黄仁勋介绍,Jetson Nano 是一个能够创建数百万智能系统的人工智能计算机。这款小型但强大的 CUDA-X AI 计算机为运行现代 AI 工作流程提供了 472 千兆位的计算性能。它非常节能,功耗低至 5 瓦特。Jetson Nano 开发板包含一块 4 核 A57CPU、128 核 Maxwell 架构 GPU 以及 4G 内存。看起来是比树莓派 3 性能强一个等级的存在。
Jetson Nano 支持高清传感器,可以并行处理许多传感器并在每个传感器流上运行多个现有的神经网络。它还支持许多流行的人工智能框架,使得开发人员可以轻松地将他们喜欢的模型和框架集成到产品中。该开发包可以开箱即用地运行 Linux,拥有 4GB 内存和相机及其他附件所需的 I/O。
Jetson Nano 开发者工具包技术规格
据英伟达博客介绍,Jetson Nano 可以运行大量网络,包括 TensorFlow、PyTorch、Caffe/Caffe2、Keras、MXNet 这些流行的机器学习框架的完整本地版本。通过实现图像识别、目标检测与定位、人体姿态估计、语义分割、视频增强和智能分析等能力,这些网络可被用于构建自动驾驶机器和复杂的 AI 系统。
下图展示了在各种流行模型的推理基准结果。Jetson Nano 在许多场景中实现了实时表现,能够处理多种高清晰视频流。
各种深度学习推理网络在 Jetson Nano 和 TensorRT 下的表现,使用了 FP16 精度,batch size 为 1。
此外,英伟达还将 Jetson Nano 与树莓派、英特尔的计算棒以及谷歌的 Edge TPU 开发版进行了对比,部分结果如下。
Jetson Nano 与树莓派、英特尔的计算棒以及谷歌的 Edge TPU 开发版的推理表现结果对比
更自由的自动驾驶
除了开发板,英伟达芯片也已渗入各行各业的机器人领域,为人工智能算法提供端侧算力支持,不过最耗费算力的当属自动驾驶。「最重要的机器人就是自动驾驶汽车了。」黄仁勋表示。
目前,英伟达已经开放了覆盖整个自动驾驶流程的开发工具。很多车厂、自动驾驶科技公司、高精地图和传感器厂商已经加入了这个生态系统。
在现场,英伟达展示了最新的自动驾驶汽车演示录像,黄仁勋表示,去年的英伟达自动驾驶汽车是在闭环路线行动的,今天的自动驾驶汽车已经可以自生成动态地图并自动行驶了。「即使是地图上没有标注的支线道路,我们的自动驾驶汽车也可以通过 Lidar、雷达、摄像头等传感器自动生成高精度地图并安全行驶在其上。」黄仁勋表示。
在英伟达的愿景中,道路规划 预测 强制安全区域的逻辑可以在自动驾驶过程中预测未来道路上发生的各类情况,从而保证安全的自动驾驶。当然,这些算法很快将会开源。
在 GTC 上,英伟达发布了自动驾驶模拟器 Drive Constellation,这是一种复杂的虚拟场景,可供开发者们在更为真实的场景下训练自动驾驶 AI 模型。开发者在其中可以随意控制天气,道路交通情况,并可以随意切换控制车辆。这种方式相比于现实世界更为高效、成本效益更高也更为安全。
英伟达 Drive Constellation
去年的 GTC 首次介绍了 Drive Constellation,该数据中心解决方案包含两个并排服务器:DRIVE Constellation Simulator 使用运行 DRIVE Sim 软件的英伟达 GPU 生成虚拟世界中汽车的传感器输出;DRIVE Constellation Vehicle 包含 DRIVE AGX Pegasus AI 汽车计算机,用来处理模拟传感器数据。
英伟达表示,这种模拟器不仅可以帮助自动驾驶开发者,也将成为第三方监管机制的重要组成部分。在大会上,黄仁勋还公布了英伟达的第一个合作伙伴:目前世界排名第一的车厂丰田。
从英伟达 2018 年四季度的财报上来看,其 RTX20 系列显卡带来的收益并不理想。虽然 AMD 早在今年 1 月就推出了自己的 7 纳米制程 CPU 与 GPU,但英伟达似乎并没有感到紧迫的压力。目前,英伟达希望开拓新的市场,让更多行业用上最先进的人工智能技术。
本文为机器之心原创,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com