AI/光模块随笔:怎么看MRC协议的影响?
首先MRC是针对scale-out的开源网络协议。因为现有scale-up网络域都用的私有协议。
历史上的scale-out协议之争:英伟达旗下Mellanox在23年推行IB协议,是个半开源体系的产物,有性能上优势。IB一度非常盛行,但是最后大客户转向了更加开放的融合以太网协议(RoCE);到25-26年英伟达也全面拥抱了以太网协议。
而MRC是RoCE的上层协议扩展,而非替代。它利用RoCE的RDMA能力,增加了多路径传输和智能调度功能。
MRC已部署在OpenAI与OCI合作的Stargate超算及MicrosoftFairwater超算中,可用两层交换机连接逾10万块GPU。
MRC协议是一个针对训练的协议,他的一些特征如静态源路由(不再让交换机自己动态找路,而是由发送方直接指定数据包的完整路径),只有在训练场景有可能实现,而在推理场景中数据流难以预测。但未来的集群演进方向重心在推理。
目前看MRC联合的玩家里面没有谷歌、亚马逊、Meta,三家大力发展自研ASIC的P大厂,因此包容性还有待观察。
至于多平面网络技术,实际上并没有真正减少网络层级,和谷歌的TPU8t的Virgo架构类似,两层拓扑达到13w卡的情况下,大集群规模已经达到100w卡,第三层网络其实就是平时说的scale-across,支持6-10km的连接,未来Coherent-Lite(轻量版相干)的光模块会显著增加,ASP显著更高。反过来说,如果不用多平面技术,百万卡集群没有落地的可行性。
结论上来说,MRC对现有盛行的网络协议或者架构设计体系影响或有限(主要原因还是他只面向训练),看好scale-across和Coherent-Lite方案推行。
AI/光模块随笔:怎么看MRC协议的影响? 首先MRC是针对scale-out
阅读:7
点赞:0