今天分享的是:2025年 AI原生传输技术(ANT)测试规范在线股票配资排名
报告共计:21页
AI原生传输技术(ANT)测试规范发布:破解大模型算力网络瓶颈,智算基础设施迎来新标杆
随着人工智能大模型向千亿、万亿参数规模演进,底层算力网络正面临前所未有的挑战。高效的网络传输不仅是提升AI训练效率的关键,更直接影响着大模型从研发到落地的速度。近日,开放数据中心委员会(ODCC)正式发布《AI原生传输技术(ANT)测试规范》(编号ODCC2505008),从测试环境、技术场景到性能验证,全方位定义了ANT技术的评估标准,为智算网络基础设施的发展提供了重要参考。
这份规范由中国信息通信研究院、华为技术有限公司联合百度、快手、中国电信、中国联通等企业及北京邮电大学、香港科技大学等高校共同编制,汇聚了产学研多方力量。其核心目标在于通过标准化测试,验证ANT技术在超大集群智算网络中的优势,解决传统传输技术在带宽利用率、拥塞控制、负载均衡等方面的痛点,助力AI算力中心实现更高效、更可靠的运行。
从测试环境搭建来看,规范采用了兼顾实用性与可操作性的设计。测试网络基于两层无收敛CLOS拓扑,配备4台ANT交换机和8台ANT服务器/网卡,链路带宽涵盖10Gbps至200Gbps等不同规格,既能模拟真实场景中的网络结构,又降低了测试门槛。测试工具方面,主要依托perftest套件(含ib_write_bw等命令)生成多样化流量,同时创新性地通过“Permutation流量”模拟大模型训练中常见的AllReduce、AlltoAll等局部流量冲突,让小规模测试环境也能精准复现实际应用中的网络压力。
展开剩余77%在核心测试场景中,ANT技术的优势得到了充分验证。针对AI集群中频繁出现的流量哈希冲突问题,规范对比了单路径ECMP、业界端侧逐包均衡(如UEC)、网侧逐包均衡(如英伟达AR)与ANT逐包均衡四种方案。结果显示,单路径ECMP因存在哈希冲突,部分流的吞吐会大幅衰减,而包括ANT在内的逐包均衡方案均能显著提升平均吞吐,且ANT在稳定性上表现突出。这意味着在多节点数据交互频繁的AI训练场景中,ANT能有效避免因流量分配不均导致的算力浪费。
带宽不对称是智算网络中的另一大难题,可能由链路故障、背景流量干扰等因素引发。规范通过将部分链路带宽降至10%模拟故障场景,对比了不同技术的应对能力。测试发现,业界网侧逐包方案(如英伟达AR)在带宽不对称时性能衰减明显,而ANT逐包均衡方案虽略低于理想环境下的性能,但网络总体利用率能接近理论最优值,展现出更强的抗干扰能力。这一特性对于需要7×24小时稳定运行的AI算力中心尤为重要,可减少因局部故障导致的整体效率下降。
在流量调度层面,ANT的“算效优先”设计打破了传统Fair Sharing调度的局限。传统调度模式下,不同类型的流量(如不可被掩盖的PP/EP流量与可被掩盖的DP流量)会均分带宽,导致关键任务因资源抢占而延迟。而ANT-CFS(Computation First Scheduling)调度方案能优先保障不可被掩盖流量的带宽需求,让关键计算任务免受其他流量干扰,大幅缩短AI训练的整体耗时。
针对传统Lossless技术路线存在的PFC头阻问题,规范通过“受害流实验”进行了重点验证。在多任务并发场景中,传统Lossless方案会因PFC(Priority-based Flow Control)机制导致受害流的吞吐远低于理想值,而ANT的Loss-tolerant技术(ANT-DCP,Data Control Partitioning)通过数控分离设计,能有效规避头阻影响,使受害流的吞吐接近理论最优。同时,在应对丢包问题时,ANT-DCP相比传统的Go-Back-N、Selective ACK方案,不仅平均流完成时间更短,且在高丢包率和连续丢包场景下仍能保持稳定性能,展现出更强的容错能力。
作为AI原生传输技术的首个标准化测试规范,该文件的发布不仅为企业提供了清晰的技术评估依据,更标志着我国智算网络技术从创新研发向标准化、产业化迈进了关键一步。随着ANT技术在更多AI算力中心的落地应用,有望进一步释放算力潜能,推动大模型训练效率的提升,为人工智能产业的高质量发展提供坚实的基础设施支撑。未来,ODCC还将持续联合产业链各方,围绕更大规模组网、更复杂业务场景等方向完善测试体系,助力智算网络技术不断迭代升级。
以下为报告节选内容
报告共计: 21页
中小未来圈在线股票配资排名,你需要的资料,我这里都有!
发布于:广东省九八策略提示:文章来自网络,不代表本站观点。