这两天 Intel 公司在 “HotChips 2024” 中介绍了它的”4Tb/s Optical Compute Interconnect Chiplet for XPU - to - XPU Connectivity“。翻译过来就是 ”用于 XPU 到 XPU 连接的 4Tb/s 光计算互连芯片“。
今天给大家分享一下,内容很丰富,涉及 CPO / OCI 等,值得一看!
首先正文的第 1 页 ppt 中,简单介绍了光通信从用于长距离通信转变为密度高得多的短距离链路的历程。
在电信时代,光通信具有长距离传输的特点,使用低损耗光纤(可达数百公里),配合光纤放大器(C 波段),采用离散光学子组件,高度依赖数字信号处理(DSP)。
进入数据通信时代,追求低功耗,采用集成光子学(硅光子学),不采用光学放大器,减少 DSP 功能,使用强度调制直接检测,IMDD,并且其最终目标是消除 DSP(如 LPO、CPO)。
此时,要求每比特能量消耗 <30pJ,传输距离较短(<2km),实现高带宽密度(>1Tbps/mm 海岸线)。
而到了 AI 时代,对光通信的要求进一步提高,每比特能量消耗要求 < 5pJ,并满足机架级传输距离(<100m),大容量需要更大规模的光子学集成(密集波分复用,DWDM),以及先进封装。
接下来的讲的是最大覆盖面以及密度和效率。从图表中可以看出,不同的互连技术在不同距离下的数据传输速率有所不同。共封装光学(CPO)适用于网络应用,而光学计算互连(OCI)适用于计算结构。
在应用案例方面,在以太网共封装 ”Ethernet CPO “ 主要用于交换机,与可插拔相比,可以减少功耗和成本,但要符合标准并与传统设备互操作,具有高带宽密度,此外,要求对延迟不敏感。
上页 PPT 的半部分则是要说明由于铜缆互连,存在物理和封装限制,而光纤网络可以通过扩展链路范围来缓解这些限制。
而 OCI 则比例适合用于计算结构,比较新的用途是 Compute Fabric Interconnect 如AI/ML 和资源 分解。
对于 Compute Fabric Interconnect 来说,一个是铜的替代,但目前没有现成的光学标准。而 Compute Fabric 要求具有更高的带宽密度、更长的传输距离以支持更大的集群,且低功耗,能实现相同或更好的延迟。
同时,当前的机架正在向分解式机架发展,其目标是实现资源的池化与组合。这种可组合性超越了金属服务器的限制。资源分解的特点包括:不受封装 / 可插拔限制的约束,从而能够释放资源;创建资源池;对延迟敏感;具有高带宽密度;以及低功耗。
OCI 的扩展向量和关键性能指标要点包括带宽密度、功率成本、延迟等。每根光纤要达到 2Tbps,带宽密度要大于 1.5Tbps/mm,每比特能量消耗要小于 3.5pJ,功率降低 80% 以上,延迟小于 10ns 加上传输时间。
接下来就是对 CPO 在 Ethernet 和 Compute 应用上的对比,阐述它们在共封装光学方面存在差异。此页 PPT 主要表达的意思是 ”不同的需求驱动着不同的架构和解决方案“。
我们具体来看看 PPT 中讲了啥。
胶片中提到, Ethernet 以太网网络的现有技术是可插拔光学器件,典型用例为交换机到交换机和 NIC 到交换机,典型传输距离可达数公里,典型延迟大于 100 纳秒,FEC 为 KP,光接口标准为 MSA 20nm O 波段 FR 100 和 200Gb/s PAM4,主机接口标准是 IEEE/OIF。
而 Compute 计算连接的现有技术是 Cu SERDES 接口(如 PCle/CXL),典型用例为计算结构的扩展 / 收缩、资源分解 / 池化,典型传输距离可达 100 米,典型延迟小于 10 纳秒,FEC 为无或轻量级 FEC,光接口标准尚未确定,MSA 新兴标准为 100s GHz 16 - 64Gb/s NRZ 较为流行,主机接口标准是 UCle/PCI - SIG。
不过目前以太网网络的 CPO 仍在进行中。
在 ”OCI 扩展向量和关键性能指标要点“ 方面,给我们呈现了如下内容:
OCI 的扩展向量和关键性能指标要点包括带宽密度、功率成本、延迟等。每根光纤要达到 2Tbps,带宽密度要大于 1.5Tbps/mm,每比特能量消耗要小于 3.5pJ,成本降低 80% ,延迟小于 10ns 加上传输时间。
总之,光计算互连需要降低功耗、成本和延迟。同时,还需要提供更多的带宽和密度。
Intel 有一个 OCI Tile,其中集成了用于光学的 PIC Tile,位于电气侧的 EIC Tile。与主机的连接可以是直接的,也可以通过 UCIe 进行,可通过直接驱动或通用芯片互连与封装连接。
这种方法的特点是在光子集成电路上集成更多功能,通过先进封装实现异构集成,并将光学引擎与主机更紧密集成。当应用于网络应用时称为 CPO,应用于计算结构时称为 OCI。
CPO 的连接方式有High-Speed 串行和 wide-slow D2D 接口两种。
High-Speed 串行方式在主机上使用特定的 Serdes,而 D2D 接口在芯片中有专门构建和优化的 Serdes,且 D2D 接口的带宽密度和功率效率更高。不过,D2D 接口的生态系统尚未成熟。
接下来相当于才进入本次分享的主题:4Tbps OCI 和系统概述!以下是 Intel 使用 4Tbps OCI 的简化模型。
4Tbps OCI 能够在现有计算生态系统中实现光连接,连接到计算平台的标准 I/O 端口,由主机 PCIe5(和 UPI)SERDES 进行无定时直接驱动,每个方向带宽为 2Tbps,还为下一代 PCIe6 连接和未来协同优化的并行接口设计提供支持。
以下是其工作原理的详细介绍。这与 Intel 的其他一些硅光子学设计非常相似。
阐述的是 4Tb/s(8Tb/s 双向)硅光子集成电路支持并行和串行主机接口,针对功率和尺寸进行了优化,基于高容量 SiPh 平台,包括环形调制器、激光器、锗光电探测器等组件,通过特定方式连接。
英特尔正在倡导集成激光器。在许多以太网 CPO 设计中,激光器是一个单独的可插拔光学模块。英特尔表示,它已经售出了数百万台这样的激光器,因此它有大量的可靠性数据和测试方法来大规模地做到这一点。
集成 III - Vs 在性能、成本和可靠性方面都具有重要价值,通过严格的测试和工艺实现了波长变化的控制、成本的降低以及可靠性的提高。
在封装和平台集成方面,展示了概念 CPU 与共封装 OCI 的集成情况,包括 Gen5/CXL2 链接等具体信息。
这是与 OCI 共同封装的光器件。这 64 个通道连接到连接到光纤跳线的单模光纤。
下面的 PPT 显示的是 8 波长集成激光光谱结果,可以看到其输出功率均匀性为正负 0.7dBm,波长间距均匀性为正负 15GHz。
再展示了测量发射器输出眼图的相关情况,数据速率是 32Gb/s,但具体的眼图信息未在胶片中提及。
Intel 并通过实验演示了 CPU 到 CPU 的光通信,首次展示了通过共封装 OCI 和光纤进行的 CPU 到 CPU 通信,实验结果表明 OCI 接收器和链路性能良好。
最后,说了一下未来的趋势方向,英特尔期待在未来扩展到更快的波特率和更多的波长,它还可以通过在未来提供更多光纤来扩展,并且该架构也支持更高的速率。
多年来,Intel 公司一直在探索 chip-to-chip 的光学互连。在以往的规划中,像 Lightbender 这样的项目计划在 2025 - 2026 年推出 HBM 小芯片,以实现更小的尺寸和更低的功率。
据说 Intel 公司已经停止了 Lightbender 项目 ?
感谢阅读!