如何看待 OPPO 发布的首款 6nm NPU芯片

2021-12-15 13:49:37 浏览数 (2)

OPPO的造芯计划叫马里亚纳,第一款芯片叫马里亚纳 MariSilicon X,而马里亚纳海沟是地球上水最深的地方。如果说MariSilicon X是OPPO探索地球最深海沟第一缕光,那么这道光带来的是更高清,更省电,所见即所得。

OPPO的这款马里亚纳 MariSilicon X芯片并不是单纯的ISP,而是一个ISP AI加速器的NPU,用OPPO的话说,就是MariLumi影像处理单元 MariNeuro AI计算单元。“4K 20bit RAW AI Ultra HDR”的影像能力第一次被带到了移动设备上。

那么这款MariSilicon X芯片涉及到哪些技术细节呢?

DSA

我们知道,传统的芯片设计和使用遵循着一种自上而下的模式,这有点类似于软件开发里的瀑布模型,也就是芯片公司提供现成的芯片,然后芯片的使用者再开发各种软件去做适配。这样的模式就有很多问题,最主要的就是芯片设计和使用这两个环节的脱钩。芯片的设计者不知道使用者具体要用在什么地方,也不知道使用者的具体需求,只能尽量设计通用性强的结构,而这样势必会牺牲芯片在具体应用场景里的性能、功耗和面积。

另一方面,芯片的使用者也不知道芯片具体的设计细节,也只能根据有限的文档资料去使用芯片,这样也势必很难充分发挥芯片的最大能力,使用体验非常糟糕。

所以现在的芯片设计就开始慢慢流行起 DSA。它的本质思路其实很简单,就是根据实际的具体需求,去指定芯片的设计方案,然后确定架构、微架构、编程方法、软硬件系统等等一系列内容。在芯片的迭代过程中,使用领域专用架构的芯片可以让硬件架构和软件算法同步更新,这就从根本上解决了前面说的瀑布模型里设计和使用脱节的问题。

这种DSA架构设计是现代芯片设计的一个非常主流的趋势。2017年三月,图灵奖获得者David Patterson和John Hennessy在其“体系结构的黄金年代”主题演讲中,提出了DSA架构。CPU的性能提升走向终结,需要针对特定场景有针对性的定制加速,而DSA则是切实可行的解决方案。DSA是在定制ASIC的基础上回调,使其具有一定的软件可编程灵活性。

DSA架构的第一个经典案例是谷歌的TPU。TPU(Tensor Processing Unit,张量处理单元)是Google定制开发的ASIC芯片,用于加速机器学习工作负载。谷歌在2013年进行的一项预测分析显示,人们每天使用语音识别DNN进行语音搜索三分钟,这将使数据中心的计算需求增加一倍,而使用传统的CPU成本非常昂贵。因此,谷歌启动了一个高优先级项目,即TPU项目,以快速生成用于推理的自研ASIC。目标是将GPU的性价比提高10倍。感兴趣的朋友可以参阅我19年写的文章《解密AI芯片的加速原理》。

4K hdr AI智慧夜景视频

MariSilicon X采用了台积电6纳米工艺进行制造,int8峰值算力达到每秒18万亿次。特别是在影像领域,这样的AI算力可以支持4K 30帧的HDR智慧夜景视频。另外,这颗芯片做到了20比特的位宽,也就是可以提供20位UltraHDR的超高动态范围。这是什么概念呢,也就是用手机拍摄的画面可以同时记录最亮的部分和最暗的部分,这两者可以相差100万倍,但同时能保持这两部分的细节。

无损RAW计算

传统的图形图像的处理链路大致可以分成RAW、RGB和YUV三个域,原先大部分ISP处理都在YUV域,但这个时候的图像已经是经过SoC压缩和处理的内容,可能已经损失了很大部分的信息。

但通过这颗芯片的算力加持,就可以直接在RAW域对原生无损内容进行处理,从而提供更高的AI计算灵活性。

这样做其实就是把原来在SoC里低效处理的内容,转移到了这颗NPU里进行高效、实时的硬件加速处理。不仅如此,它还直接获取传感器的RAW数据,避免了数据的压缩和信息损失。再加上前面说的20位带宽融合,这几个方面整合起来就可以把图像信息带来8.6dB的SNR提升。另外根据OPPO的数据,MariSilicon X芯片可以对最高93.75%的信息折损进行补偿和还原,从而实现等效大底的感光能力。在NPU里实现的AI降噪算法,还可以让画面更加纯净。两者结合,就能提供高动态、高清晰度的影像。

OPPO未来会自研SoC吗?

正如前面所讲,传统芯片设计开发流程已经无法满足产品商的需求,出于开发成本和IP功能需求的考虑,现在更多还是自研XPU的阶段(很大程度上取决于DSA架构的出现),但是否需要自研SoC完全是平行的两条逻辑线,这一点可以参考特斯拉的历程。

据说OPPO的马里亚纳 X明年在Find X系列中应用,不知道实际表现如何,你会买吗?

0 人点赞