广告

OFC2023:谷歌的MEMS光开关

2023-05-22 光学小豆芽 阅读:
OFC2023上,谷歌详细介绍了其内部项目Apollo, 在其数据中心大范围部署MEMS型光开关(Optical Circuit Switch, 简称OCS),带来了数据中心网络架构的重大变革。小豆芽这里对相关技术做一个整理,供大家参考。

OFC2023上,谷歌详细介绍了其内部项目Apollo, 在其数据中心大范围部署MEMS型光开关(Optical Circuit Switch, 简称OCS),带来了数据中心网络架构的重大变革。小豆芽这里对相关技术做一个整理,供大家参考。Dksednc

下图中左图是传统的数据中心网络结构图,也就是所谓的spine-leaf结构,其中Spine层主要是电网络交换机(electronic packet switch, 简称EPS), SP与每一个AB相连。AB(aggregation block)层为汇聚层,与TOR 交换机相连。Apollo项目直接将SP层的EPS替换为OCS, 如右图所示。Dksednc

Dksednc

(图片来自文献1)Dksednc

传统架构中信号经过Spine层会涉及到电信号与光信号的多次转换,每一个数据包的信号处理,都会带来非常大的功耗开销,并且增加了数据的延迟。由于网络数据量的剧增,每隔两三年,Spine层都需要进行一次升级,带来了巨大的成本开销。谷歌使用OCS替换EPS的出发点,主要是为了降低功耗与成本。Dksednc

Google的OCS称为Palomar,其内部结构如下图所示,输入输出为两个光纤准直器阵列(fiber collimator array), 光纤准直器包括光纤阵列和微透镜阵列,输入输出均为136个通道。光通过光纤进入到OCS系统后,先后经过两个2D的MEMS阵列。每个MEMS阵列含有136个平面镜,用于精确调节光的传播方向。信号光的传播方向为下图中的绿线。此外系统中还包含两个监控通道,对应下图中的红色粗线。监控通道使用850nm波长的光,经过MEMS反射后进入到监控相机处。通过图像处理来反馈控制MEMS阵列,优化链路插损。Dksednc

Dksednc

(图片来自文献1)Dksednc

Palomar可实现136个光路间的任意切换,信号可以双向传播,其最大功耗为108W,并且工作在非常宽的波长范围内。Palomar的插损在2dB以下,回损的典型值为-46dB,如下图所示。Dksednc

Dksednc

(图片来自文献2)Dksednc

谷歌还在链路中部署了光环形器(optical circulator),将带宽增加一倍,如下图所示。Dksednc

Dksednc

(图片来自文献2)Dksednc

相比于EPS, OCS带来了数据中心网络结构的革新,其主要特征有:Dksednc

1)可配置的网络拓扑结构Dksednc

根据实际网络中的数据量,灵活地选择数据链路。以下图为例,A、B和C节点都有500个端口,AB间的模块速率为200Gbps,AC和BC间的模块速率为100Gbps。如果按照传统的网络结构配置,两个节点之间分别有250个链路,因此AB间的最大数据量为50T, AC和BC的最大数据量为25T。但是实际需求为AB间的数据量为55T,传统网络配置无法完成该需求。但是如果采用OCS,可以动态地调整节点间链路的数量,AB的链路数调整为300,而AC和BC的链路数调整为200,此时AB间的最大数据量为60T,可以满足需求。AC之间的数据一部分通过节点B进行传输。Dksednc

Dksednc

(图片来自文献3)Dksednc

2)灵活的网络拓展与升级Dksednc

采用OCS,数据中心网络可以灵活地进行网络拓展,与原有的节点形成互联,而不影响业务,如下图所示。Dksednc

Dksednc

(图片来自文献2)Dksednc

当网络中部署更高速率的光模块和交换机时,原有的低速器件可以继续使用,降低一部分成本,如下图所示。Dksednc

Dksednc

(图片来自文献3)Dksednc

OCS也被部署到Google最新的TPU v4集群中,如下图所示,64个TPU芯片形成一个cube, 最外侧六个面上的TPU与48个OCS相连,内部的TPU之间通过电缆连接。48个OCS可以与4096个TPU芯片相连,形成一个大型的超算系统。Dksednc

Dksednc

(图片来自文献4)Dksednc

通过在TPU超算系统中部署OCS, 系统的稳定性得以大幅提高。如果没有 使用OCS,主机可用性(host availability)必须达到 99.9%,才能提供合理的切片吞吐量。使用OCS以后,对于大多数切片大小,主机可用性只需达到99.0%即可。如果某个CPU出现故障,可以动态配置网络,绕过该故障芯片。Dksednc

Dksednc

(图片来自文献4)Dksednc

部署OCS之后,可以根据实际计算任务中的数据流,灵活地配置TPU的互联Torus结构,提高系统的整体性能,如下图所示。Dksednc

Dksednc

(图片来自文献4)Dksednc

此外还可以根据计算任务的大小,灵活地选取所需调用TPU的切片大小,提高计算效率。Dksednc

OCS的成本占整个TPU超算系统的5%,功耗占整个系统的3%。而对于Apollo系统,OCS降低30%的成本和40%的功耗。Google简单对比了OCS和NV link, 功耗与成本上OCS都占优。Dksednc

除了功耗与成本的显著优势之外,对于数据中心来说,OCS取代了传统的spine层,可以根据需求动态地配置网络拓扑结构。对于AI集群来说,OCS可以动态配置计算芯片间的连接关系,尤其当下AI大模型非常火爆,多卡之间的互联得到了越来越多的关注,如何构建大型的算力网络会是AI发展的重要发展方向。谷歌在OCS上投入了多年,最初采用外购的MEMS芯片,但是性能达不到要求后谷歌开始自研。虽然该方案不被产业界看好,谷歌十年磨一剑,不断提高OCS的性能,现在已经在其数据中心大范围部署OCS。Dksednc


参考文献:Dksednc

  1. R. Urata, et.al., "Apollo: Large-Scale Deployment of Optical Circuit Switching for Datacenter Networking", OFC 2023 M2G.1Dksednc

  2. R. Urata, et.al., "Mission Apollo: Landing Optical Circuit Switching at Datacenter Scale"Dksednc

  3. L. Poutievski, et.al., "Jupiter Evolving: Transforming Google’s Datacenter Network via Optical Circuit Switches and Software-Defined Networking"Dksednc

  4. N. Jouppi, et.al., "TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings"Dksednc

责编:Ricardo
文章来源及版权属于光学小豆芽,EDN电子技术设计仅作转载分享,对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。如有疑问,请联系Demi.xia@aspencore.com
光学小豆芽
光芯片、光通信、量子光学前沿、机器学习和生活随想
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了