点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
2025年6月26日,以“网络根基 中国贡献”为主题的第四届下一代DNS发展论坛在京举行。在同期活动“推进规模部署 促进实数融合”——IPv6与互联网基础技术应用论坛上,中国移动研究院基础网络技术研究所承载网研究室主任姜文颖以《AI时代中国移动IPv6技术创新》为题作分享。
姜文颖表示,得益于政策和产业的协同发力,近年来AI技术快速发展并深入人们生活的各个领域。2025年政府工作报告明确推进“人工智能+”行动,深入把握AI发展趋势;2023年10月,工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等六部门联合印发《算力基础设施高质量发展行动计划》,提出智能算力占比达到35%,骨干网、城域网全面支持IPv6,SRv6等新技术使用占比达到40%等目标。在产业层面,AI及AI大模型呈现两条发展路径。一是以超大算力和超大参数探索AI大模型能力的上限,二是如Deepseek等开辟了低成本高效率的大模型训推新范式,引导在一定模型能力的条件下,探索AI成本下限。这两种发展路径均对网络提出新要求与机遇。
姜文颖提到,随着AI大模型的发展,新型智算互联业务不断涌现,以分布式训练、AI推理为代表的新型智算业务对网络提出了更高要求。
在分布式训练场景,大模型的快速发展驱动全球算力基础设施的大规模建设,在十万卡级算力的情况下,单机房难以承载这种规模,须采用跨数据中心协同架构。在这种模式下,原本局限于数据中心内部的数据交换需通过广域网承载。同时,实测数据表明,RDMA丢包会引发明显的算力损伤,2%丢包将造成吞吐量降低至0,50ms保护倒换引起算效下降或断点重训,这对广域网和IP网的可靠性提出更高要求。
在AI推理场景,对于2C/2H端,面对亿级海量用户的千万级并发挑战,集中式推理服务中心难以满足需求,需采用分布式云端协同方式。对于2B端,高敏感用户需通过模型分层协同来实现隐私推理,例如,医疗行业对患者数据敏感性较高,需在广域网中传递模型协同推理间隐变量的数据,包括丢包要求和抖动要求。
在存算分离场景,敏感企业客户要求样本数据“不落盘、不出园区”,如金融、券商等公司数据存储在私域,用户通常不希望将敏感数据运送至三方智算中心进行模型训练,需要通过加密联接打通存和算、实现存算分离训练;或如智算中心部署政务类大模型,用户租用智算中心算力进行大模型训练,涉及敏感信息,用户希望将数据存在本地,通过网络拉通远端算力进行大模型训练等。需通过边传输边训练打通存、算之间的连接,对网络提出了安全加密的访问需求。
在样本上传场景,根据调研结果,科研、交通、影视、医疗等行业对AI训练的算力需求较大,每年PB级海量数据需要传至算力中心进行分析处理,AI大模型训练催生海量数据传输需求。
姜文颖表示,综上这些需求,中国移动开展以G-SRv6演进技术为基础的L3新协议、以超高速安全以太网为核心的L1/L2新连接技术的体系化创新,助力打造无损、超宽、可靠、安全的新型智算广域互联网,最终建设目标是突破IP广域网的性能瓶颈。
如在IP网络层次化切片技术层面,创新提出“网络拓扑+切片资源 二维标识”层次化切片技术,整合不同层次逻辑拓扑及网络资源,形成行业/用户/业务多层级切片,突破K级切片规模瓶颈,实现Mbit级细粒度的确定性资源保障及业务隔离;
在微流级精准流控(MicroPFC)技术层面,创新提出MicroPFC,通过切片ID标识微流,基于协议+芯片构筑流队列的拥塞感知、流控反压能力,每用户队列单独启停、广域拥塞不扩散,突破传统网络仅支持端口级8队列反压瓶颈,实现长距离精准拥塞控制;
在10T级聚合通道(SuperPipe)技术层面,创新SuperPipe技术,基于报文组分发的广域网以太网端口聚合机制,实现单通道400G-32T自适应带宽调整,解决传统链路聚合技术(LAG、ECMP)无法满足跨智算中心出口收敛情况下的负载均衡难题;
在物理层安全(PHYSec)技术层面,原创以太网物理层比特流加密机制,解决传统IPSec、MACSec基于报文加密存在的大开销、高时延等问题,实现0开销、全加密、纳秒级时延的线速加解密;
在弹性通道技术(FlexLane)技术层面,创新弹性通道FlexLane,基于以太网物理层通道的高可靠保障机制,当物理层检测到lane故障后进行快速故障隔离,故障恢复后可自愈,确保AI任务不因网络互联故障而中断,大幅提升AI基础设施的可靠性。
姜文颖表示,AI已成为网络发展的新动能,中国移动希望与产业携手,共创AI时代的IP网络发展新阶段。(记者 赵鹏超 实习生 殷新宇)