热点推荐
热门图文
中国移动王晓云、孙滔等在《信息与电子工程前沿(英文)》(FITEE)2024年第5期“算网融合:架构、理论与实践”专题发表视点文章,提出算力感知网络(CAN)的系统架构设计,引入感知平面来收集、管理并综合计算和网络的信息,以解决广域网中计算服务调度慢、数据分发不灵活和数据传输效率低等问题。
CAN定义为计算和网络资源的集成互连、联合感知和混合控制。其架构包含感知平面、控制平面和数据平面,感知平面收集、管理和综合计算与网络信息,是核心功能模块,三个平面相互协作形成闭环控制系统。与CFN-dyncast相比,CAN考虑问题更全面,架构更系统;与算力网络(CPN)相比,CAN在技术和协议设计上更具体。
图 1 计算感知网络(CAN)架构
文章构建了CAN系统的三项关键技术:算力路由(CATS)、弹性广播和广域高吞吐传输。CATS是一种跨多个计算实例的计算服务调度技术,通过综合分析计算能力和网络状态选择最优路径。通过分布式控制和调度,消除了查询计算节点目的地地址的额外时延开销,但需平衡设计信令开销和计算信息的通告粒度。弹性广播为适应一对多集合通信模式而设计,用于跨数据中心的人工智能(AI)模型训练和推理。通过扩展网络控制器和位索引显式复制技术(BIER)协议,实现灵活的一对多数据传输,节省带宽和减少端侧数据拷贝。广域高吞吐传输对构建高性能数据平面功能和扩展CAN适用性至关重要。基于RoCEv2设计传输协议,通过快速丢包恢复、数据包精确重传和基于单向延迟的拥塞控制算法优化,实现端到端的高吞吐量数据传输。
为解决三个主要问题,作了初步模拟以展示如何提高有效吞吐量。广域传输的模拟试验基于FPGA构建网络仿真原型,对广域高吞吐传输技术作初步模拟,结果表明该技术在不同丢包率和往返时间下,吞吐量性能显著优于标准TCP。CAN的关键技术适用于优化广域网中的AI服务。弹性广播优化模型训练,CATS用于模型推理,广域高吞吐量传输用于离线模型部署和参数更新。
文章最后提出,未来可从计算和网络融合的能源效率以及计算、网络和应用的融合两个方向开展进一步研究,探索资源调度策略以降低能耗,研究计算、网络、应用三者协同设计以实现系统优化。
文章信息
Xiaoyun WANG, Xiaodong DUAN, Kehan YAO, Tao SUN, Peng LIU, Hongwei YANG, Zhiqiang LI, 2024. Computing-aware network (CAN): a systematic design of computing and network convergence. Frontiers of Information Technology & Electronic Engineering, 25(5):633-644.