最近,端测的AI推理芯片市场一片火热,英伟达和英特尔正面对垒,初创企业如履寒冰。而云上AI训练市场,已经从早期的GPU一统天下,发展到如今多方势力割据的局面。
作为最早吃到AI红利的科技公司之一,英伟达在面对连续几个季度的营收增速下滑后,不得不从数据中心下沉到边缘和端上,发力更多场景。
在软硬件生态上,英伟达堪称是AI硬件厂商的标杆,如今再回望显卡巨头的人工智能转型之路,多次起落,颇为曲折。
“意外”的开始
在很长的一段时间内,外界对英伟达有两个印象:显卡大厂、皮衣老黄。一个是英伟达的核心GPU产品,一个是英伟达的形象代言人。
从1993年成立到成为和AMD、英特尔抗衡的半导体巨头,英伟达经历了几个关键的阶段:一是图形处理器突围期,拿下大半的游戏显卡市场;二是AI巅峰期,借着AI和挖矿一鸣惊人,三是AI转型后时期,从高处下沉后的再反思。
早年的英伟达凭借GeForce系列显卡在游戏市场所向披靡,和成立于1969年的AMD同坐一把交椅,N卡和A卡孰优孰劣之争也是游戏界老生常谈的话题。
在此期间,英伟达既遇到显卡质量事故,面临合作伙伴高额的赔偿,也遭到竞争对手恶意拒绝技术专利共享,一路起起落落,一波三折。好在他们技术实力过硬,除了旗舰产品GeForce各方面性能给力,英伟达也在收购不同图像处理公司,加大技术研发投入,加强在游戏渲染硬件上的优势。
但即便如此,此时的英伟达更多的还是游戏宅眼中的“大神”,距离除PC之外更广阔的主流B端市场还很远。
转折点发生在2012年的ImageNet(图像识别领域赛事)大赛上,当时Geoffrey Hinton的学生通过两个GPU将深度卷积神经网络AlexNet的准确率提高了10.8%,震撼了学术界,英伟达也借此一战成名,从游戏市场一大步跨入AI市场。
看似无心插柳柳成荫,但实际上背后是英伟达在GPU上多年的厚积薄发。当学术界开始尝试用GPU做通用计算(GPGPU)时,英伟达看到了GPU在图形运算之外的潜力,捣鼓出了改变深度学习,也改变了英伟达自己的CUDA(通用并行计算平台),一个用于GPU通用计算的并行计算平台和编程模型,从软硬件层面释放了GPU做并行计算的能力,非常适合运行深度学习算法。
然而在2012到来之前,这个产品的特点只有一个:只烧钱不赚钱。但当Geoffrey Hinton和两个学生用GPU CUDA开启深度学习黄金时代后,一切都不同了。
自此之后,英伟达的GPU代替CPU成了AI训练市场的香饽饽,到底有多香呢?
其股价从2015年1月的20美元飙升至2018年10月的280美元,英伟达乘着深度学习和区块链的东风,成为AI芯片领域的绝对霸主。
黄仁勋更是在GTC 2015上直言,“我们不是硬件公司,我们是AI公司”。
那么,英伟达如何从CUDA开启自己的AI辉煌时刻呢?在其排列种组合类繁多的AI芯片产品中,GPU又是如何步步深入到人工智能的训练、推理市场?
眼花缭乱的AI产品线
通常情况下,AI计算包括两个步骤,一是训练深度学习模型,即训练;二是将训练好的模型部署到实际应用环境,也就是推理。
早期,英伟达在训练市场占据了绝对的优势,谷歌、亚马逊等无一例外皆使用GPU作为大量数据训练的算力支持。
在股价飞涨的那几年,英伟达也推出了适用于不同场景的AI芯片和配套的软件,打造了一个庞大的AI生态圈。
刨除用于PC游戏、影视的显卡产品,在其官网可以看到,英伟达的AI产品可被归类为:DGX系统、DRIVE PX、Jetson、Tesla、T4企业服务器。
每个产品之间有的是包含和被包含的关系,比如Tesla是DGX系统的基础组成硬件,有的大类产品列表下还可以再细分针对不同场景、性能、价格有所差异的产品。
简单梳理来看,英伟达的AI芯片产品主要是以GPU为核心,而GPU的微架构会逐年迭代,从Tesla(此处是架构,非GPU产品)、Fermi、Kepler、Maxwell、Pascal、Volta以及最新的Turing,越往后微架构的计算能力越高。比如从Volta开始,英伟达就集成了用于AI计算的Tensor Core,算力可想而知。
所有的GPU产品都会按照性能、功耗、使用场景搭配不同的架构,英伟达于2017年推出的Tesla V100基于的就是架构Volta GV100。而代号为Tesla的GPU产品也是目前云端主流的训练推理芯片,其专为高性能计算、深度学习而生。
2018年,英伟达推出了基于Turning架构的云端推理GPU产品Tesla T4,这也是T4企业服务器产品的核心硬件构成。
在Tesla系列GPU的基础上,英伟达再进行“排列组合”,推出了超级计算机DGX,专为加速数据中心和简化深度学习工作流程而设计,可加快实验速度、训练更大的模型。
硬件之外,英伟达近几年也接连推出了优化GPU运算的相关配套软件资源,包括用于推理的TensorRT,基于CUDA的高性能深度学习加速库CuDNN、CuBLAS等等。
在站稳数据中心的位置后,英伟达将目光投向了面向不同应用场景的端侧推理芯片。2015年,他们推出了面向自动驾驶的Drive PX系列,以及适用于小型设备的Jetson系列。
端侧AI芯片关键的一点在于它不仅包括GPU,还囊括了基于ARM架构的CPU等其他芯片,是一个完整的SoC。简言之,英伟达的云上AI芯片是GPU的组合,端侧的AI芯片则是GPU、CPU、DRAM、闪存等在内的处理器组合。
在这里,我们需要区分一下英伟达的GPU产品和Tegra处理器。根据英伟达的财报,其营收主要就是这两大产品线组成。GPU不用过多赘述,Tegra处理器是他们在2008年推出的用于移动设备和平板电脑的芯片组(SoC),后期更多的应用是向自动驾驶和智能硬件终端方向靠拢。
目前,最新一代Tegra处理器名称取自“X教授”,叫做Xavier系列。其中,DRIVE Xavier是英伟达最新自动驾驶计算平台NVIDIA DRIVE AGX Pegasus的核心AI芯片,去年他们又发布了名为Jetson AGX Xavier的端侧AI芯片,可驱动新一代机器人及自动机器。
同样,在软件方面,英伟达也打造了四个AI计算平台:Clara医疗图像平台、Metropolis智能交通平台、ISSAC机器人、DRIVE自动驾驶平台。
粗看英伟达的显卡系列,很多人会觉得眼花缭乱,但万变不离其宗的是,英伟达所有的芯片都是根据应用场景灵活搭配不同的GPU架构,从而提供不同的算力需求,所以GPU的架构是英伟达的核心杀手锏。
但实际上为了能够卖出更多的显卡产品,英伟达确实在走广撒网的路线,用“机海”战术保持稳定的业务营收增长。
不过根据英伟达近一年的财报,数据中心业务的增长已经开始放缓,竞争对手们正在蠢蠢欲动分食剩下的蛋糕。
继谷歌推出TPU后,云端AI芯片的竞争势头如燎原之势往外延伸,Intel最近推出了NNP-T/NNT-I 用于云端训练/推理,华为则在去年就推出了“昇腾”系列芯片用于云端训练/推理,而阿里平头哥也带来了“含光”系列芯片用于云端推理……
前有狼后有虎的危机下,英伟达在今年3月击败老对手英特尔,以69.7亿美元的高价收购了以色列服务器芯片公司Mellanox以提振数据中心的业务,同时发布一系列端侧的AI芯片,强化云端之外的边缘侧的布局。
高光之后的转身
相较于云上的训练和推理,端侧的推理芯片市场也非常热闹。由于应用场景的不同,端侧的算法各有差异,相应的对性能、功耗以及延迟的要求也有区别,所以在这个市场没有绝对的巨无霸,可以一统江山。
这也是为什么多数初创公司会选择从端侧的推理芯片切入,无巨头垄断、场景丰富、自由度高。
如果云端的AI处理主要强调精度、处理能力、内存容量和带宽,对价格不那么敏感,那端侧的AI处理则主要关注功耗、响应时间、体积、成本和隐私安全等问题,这些无一例外都是英伟达曾经的劣势。
所以从去年年底到现在,英伟达一改以往售卖硬件“又贵又大”的规则,推出了性价比超高、便宜好用的小型嵌入式芯片Jetson Nano和Jetson Xavier NX。Jetson系列都是低功耗的模块化系统,具备CPU、GPU、PMIC、DRAM和闪存,进一步丰富端侧的应用场景。
曾经主导云端AI芯片市场的英伟达,在面对竞争对手的突围后,正在用云端加边缘一体化的解决方案吸引更多客户,面向终端以及边缘端的Jetson系列产品就是英伟达的新武器。
如今再去看英伟达的AI布局,已经非常清晰明了,只要技术可以触及的软硬件,统统都要自己做,广撒网多捞鱼,产品总会越卖越多。
虽然GPU是一块砖,哪里需要往哪里搬,但是随着诸如FPGA、ASIC等产品在端侧的快速铺货,英伟达的GPU优势并不明显。
不过,英伟达的产品策略对市场的反应速度一直很快,从显卡起家的他们并不会囿于GPU的思维,英伟达的DLA(深度学习加速器)和Xavier,一个ASIC和一个SoC,都证明了他们可以创建各种各样的加速器,而不仅仅是GPU。
而且英伟达耕耘这么多年,本身的优势也非常明显。强大成熟的软硬件生态能力是很多初创公司都无法比肩的,其次是技术的优势,显卡架构的迭代和升级都是英伟达每年上亿研发支出的成果。除此之外,早期的产业端积累以及产品的口碑也让他们的端侧扩张之路会走的更加顺畅。
在人工智能技术快速迭代、新架构层出不穷,以及应用场景更加多元的当下,英伟达从AI引领者的角色正在转变为一个追赶者,从他们的AI产品线中也能管窥一豹,以点带面,强调云边缘端一体化,抓几个重点场景推出软硬件在内的解决方案,同时以赋能者的身份,涌入市场前景更为广阔的端侧市场。
曾经被AI眷顾的英伟达,高光之后,会有个华丽的转身吗?
最后,今年的GTC大会将于12月16-19日在苏州召开,届时,镁客网也会带来现场报道。