AI硬件：比看起来更难

第二届AI HW峰会于9月17日至18日在硅谷中心举行，近五十位发言人向500多位与会者进行了演讲（几乎是去年首届听众人数的两倍）。所有的信息来自于峰会。

John Hennessy's keynote

计算机架构传奇人物John Hennessy，Alphabet GOOGL主席，斯坦福大学前任校长，通过描述半导体历史趋势（包括摩尔定律和丹纳德规模的过时淘汰）拉开了本次峰会的序幕。提出了基于“Domain-Specific Architectures（特定领域的体系结构）”硬件设计的机遇和要求。“ DSA”概念不仅适用于新颖的硬件设计，而且适用于深度神经网络的新软件体系结构。面临的挑战是创建和训练大型神经网络，然后优化这些网络以使其在DSA（无论是CPU，GPU，TPU，ASIC，FPGA还是ACAP）上有效运行，以“推理”处理新输入数据。大多数初创公司明智地决定将重点放在推理处理，从而避免了和NVIDIA硬碰硬的挑战

AI 软件，即软件通过迭代学习过程创建“软件”（又称“模型”），需要超级计算性能。为了使问题更具挑战性，这些网络模型的规模呈指数增长，每3.5个月翻一番，从而对性能的需求不断提高。结果，现在有超过100家公司在开发新的体系结构，以提高性能并降低计算成本。但是，他们的工作量很大。英特尔 Naveen Rao指出，如果芯片的性能要实现每年所需的10倍改进，那么芯片的架构，互连，软件和封装方面都需要2倍的进步，这是一个非常大的挑战。

初创企业可以并且将会发明出可以超越性能的新颖架构，但是它们将需要与大型客户建立合作伙伴关系才能将这些技术大规模推向市场。尽管丰富的体系结构方法令人惊奇，但硬件和必备软件的开发速度却令人沮丧地缓慢。一年前，数十家创业公司在峰会上用PowerPoint展示了他们的计划。今年，数十家创业公司展示了更新的PowerPoint。硬件在哪里？

事实上，自上次峰会以来，很少有新芯片投入量产。当然高通的855和阿里巴巴汉光800是个例外。Snapdragon 855 当然是移动SOC，而Hanguang仅供阿里巴巴内部使用。在某种程度上，延迟是因为这些东西比最初看起来要难得多。但我们也要现实一点：20、50甚至100个工程师不会选择像NVIDIA， Google ， Xilinx ，微软，亚马逊 AWS和英特尔这样的非工程公司。他们可以创新令人惊叹的新架构，但是能够运行是工程学，而不是建筑设计艺术。尽管许多人可以使用很多TOPS来构建快速的芯片，这些芯片将“吸引”研究人员，工程师，大学教授，互联网数据中心和社交网络公司，将这些芯片转变为能够使用，并为这些新芯片构建和优化模型。

以色列创业公司Habana Labs很好地说明了这一挑战。Habana在首届AI HW Summit活动中推出了其首款令人印象深刻的芯片Goya，用于数据中心推理处理。然而，整整一年之后，尽管该芯片具有出色的性能和非常低的功耗，但尚未获得Goya的公众认可或部署。这不是因为Goya无法正常工作；这是因为“故事的其余部分”需要花费一些时间和精力才能解决。

另一个主要的例子是英特尔的Nervana神经网络处理器。即使配备了创新设计和世界一流的工程团队，该芯片也经过了3年的工作被搁置。大约一年前，英特尔明智地返回了图纸，提供了更多的经验和客户反馈，以弄清楚它如何与NVIDIA已有3年历史的V100 TensorCore技术（仍是业界最快的AI芯片）竞争。与初创公司不同，英特尔可以等到它能够赢得赢家之后：英特尔的Nervana处理器（NNP-T和NNP-I）现在有望在今年晚些时候提供样品。但是，NVIDIA并没有停滞不前-我们应该很快看到它的新7nm设计（也许在11月的SC19上，但是更有可能在明年春天的GTC '20上看到）。

展望未来，新芯片的生产部署速度将取决于生态系统投资的深度和广度，以及芯片本身的完成。请记住，虽然数据中心正在拥抱异构性，但他们更喜欢我所说的同类异构性-选择数量最少的芯片架构，以涵盖最广泛的工作负载。否则，由于碎片化的计算领域利用率低，并且管理成本高昂，这样做将无利可图。

Observation #2: There are many avenues to improve performance

芯片体系结构有两个主要类别。冯·诺依曼（Von Neuman）和数据流计算架构。冯·诺依曼的大规模并行设计使用代码（内核）来处理数字计算机传统领域中的矩阵运算（先执行，再执行……）。更为激进的方法通常采用将计算和内存融合在芯片上的形式，或者使用包含神经网络的权重和激活的数字表示形式，或者使用更类似于人脑生物学功能的模拟技术。类比方法风险较高，但可能有很大希望。

许多数字内存设计都使用数据流计算架构，包括Cerebras和Xilinx Versal，其中AI内核嵌入具有可在连续网络层之间进行激活的管芯上存储器的结构中。为了使所有这些设计都能很好地进行推理，玩家需要开发定制的编译器技术来优化网络，修剪网络中未使用的部分并消除乘以零（当然答案是零）。

这些公司中的大多数，无论大小，都将提供一些非常惊人的设计。但是，请记住，从新颖的DSA设备构建有用的可扩展解决方案所需的时间和投资规模。为了正确看待这项投资，我怀疑NVIDIA每年花费数亿美元来在全球范围内促进其芯片上AI研究与开发的创新。没有初创公司能负担得起，因此他们将需要吸引一些重大的设计胜利来帮助他们克服困难。

Observation #3: NVIDIA is still on top

NVIDIA数据中心业务部门副总裁兼总经理Ian Buck勇敢地登台成为活动的最后一位演讲者，站在数百名致力于将NVIDIA降格的饥饿的狼面前。NVIDIA通过其Saturn V超级计算机（在全球500强中排名第22位）支持的更快的软件和DNN研究，在扩展其推理技术方面取得了进展。Buck指出设计胜出的理由，包括一些知名度和广泛的用例。

为了帮助推动在GPU上进行推理，NVIDIA宣布了TensorRT的第6版，该软件包含优化程序和运行时支持，可在经过训练的神经网络上部署经过训练的神经网络，以对各种NVIDIA硬件进行推理处理。它支持99美元的Jetson用于嵌入式处理，Xavier用于自动驾驶汽车，Turing T4用于数据中心应用等。

其次，亚马逊AWS宣布支持NVIDIA TensorCore T4 GPU，这是一种75瓦的PCIe卡，可以支持图像，语音，翻译和建议的复杂推理处理。NVIDIA T4将成为Habana Labs等初创公司和Intel Nervana等知名公司的常见比较目标。虽然我认为新芯片将具有出色的性能指标，但NVIDIA会正确地辩称，这些设备在云中的实用性将取决于可用软件的数量以及能否在这些加速器上运行各种模型的用户群。

最终，NVIDIA证明了GPU可以在适当的位置不断发展（与许多初创公司所说的相反），它宣布了用于语言处理的83亿参数Megatron-LM变压器网络。这是使用512个GPU在NVIDIA Saturn V上开发的，这也显示了拥有自己的AI超级计算机时可以执行的操作。请注意，根据mlPerf基准测试，NVIDIA在短短7个月内也将其现有V100 GPU的性能提高了一倍。

有些人仍然认为推断是针对轻量级的。NVIDIA展示了现代推理用例需要实时延迟的多种模型来满足用户的期望，并通过20-30个容器协作来回答一个简单的口头查询。

Conclusions

即将到来的寒武纪特定领域架构爆炸令人兴奋，但是它仍然“很快就会出现在您附近的服务器上。”到大多数初创公司到达起跑门时，他们的许多潜在客户，例如Google，Amazon AWS，百度和阿里巴巴在生产中将有自己的设计。此外，大型半导体供应商将准备使用新的硅片来处理更大的网络（如Megatron-LM）或节能的推理设计。

硬件开发全站加速网络神经网络

0 人点赞