近日,中国电信云网融合工作取得新突破。JDB电子公司统一组织中国电信北京公司、中国电信研究院,在现网完成业内首例智算长距无损互联技术验证,分布式训练性能达到集中式单智算中心训练性能的90%以上,证实了分布式无损智算网技术方向的可行性,充分发挥出中国电信云网融合的优势。
大模型的参数规模每18个月提升10倍,驱动智算中心建设规模从万卡,迈入十万乃至百万卡,单体数据中心的算力、空间、供电等资源难以满足需求。中国电信一直走在智算基础设施建设的前列,集团云网发展部在业界率先提出通过长距无损智算网构建分布式智算集群的创新方向,并将其纳入到科创重点攻关课题。而当前业内大模型训练网络最远无损传输距离不超过2公里,长距离无损传输一直是困扰业界的难题。
中国电信成立联合项目攻关组,聚焦研究长距无损智算网络技术。经过近一年的攻关,成功解决了超百公里无损智算网难题,智算DCN网络由DC内走向广域网,将物理上分散的智算资源整合成一个智算集群。联合项目组严谨论证,扎实推进,于2023年8月份完成分布式无损智算网方案设计,同年10月份开始基于云网融合大科创装置持续开展长距无损交换机技术验证,2024年2月份在北京电信现网完成800G超高速波分技术验证。通过不断完善和优化,近日在实验室完成万亿/十万亿级参数大模型分布式训练仿真验证,并在北京电信武清、永丰、瀛海三地IDC机房完成数百亿参数经典大模型的分布式训练任务,这将为京津冀等算力协同调度奠定基础,促进数字经济与实体经济的深入融合。
未来,中国电信将继续面向更大规模、更长距离的分布式智算网发起攻关,走出一条具备中国电信特色的新型智算基础设施发展道路,赋能千行百业智能化升级。