中国移动发布“芯合”异构混合并行训练系统 1.0,支持多品牌万卡集群
最新 12 月 3 日消息,在 11 月底的 2024 中国信息通信大会“算力网络算网一体创新发展论坛”上,中国移动研究院副院长段晓东携手天数智芯、壁仞科技、中兴、海光、瀚博等产业合作伙伴,发布了“芯合”异构混合并行训练系统 1.0。
据介绍,“芯合”异构混合并行训练系统具备基于非均匀计算任务切分 ITD(Inhomogeneous Task Distribution)算法的 3D 并行策略和基于 GDR(GPU Direct RDMA)的异构芯片高速通信两大核心能力。
基于 ITD 算法的 3D 并行技术可通过通用混合训练框架实现异构数据并行、异构流水线并行,实现数据微批次大小、数量、流水线并行度等参数在异构算力上的自适应调整;
基于 GDR 的异构芯片高速通信技术可在不改变芯片原有通信接口基础上,通过定义数据传输架构、流程及接口标准,屏蔽底层硬件差异,实现顶层训练任务在异构算力集群上分布式通信的无感拆解。
中国移动透露,当前,系统已实现百亿参数大模型在英伟达、天数智芯、壁仞科技、海光等 4 家智算芯片上的交叉混合训练,规模可支持万卡集群,训练加速比达 95% 以上,达到“业界领先水平”,未来将在提升智能算力资源利用率及促进国产算力发展等方面发挥重要作用。
此外,中国移动携手华为、瀚博、澎峰、海光、天数智芯等产业合作伙伴在论坛上发布了智算“芯合”算力原生基础软件栈 2.0。
最新查询公开资料获悉,中国移动于 2023 年研发并发布“芯合”算力原生基础软件栈 1.0,首次实现智算应用一键式跨芯迁移的目标,已在山东、广西等多省市的路桥检测、智能安防等场景试点应用,降低智算应用向国产化芯片迁移的复杂度。
“芯合”基础软件栈 2.0 相较于之前实现了三大升级:
一是能力升级,全面重构算力抽象模型,插件化灵活接入英伟达、华为、海光等 6 家 AI 芯片,拓展 ONNX、SYCL 等更多编程范式,支持泛 AI 应用的跨芯迁移。
二是性能升级,新增对标 CUDA 的 DNN、BLAS 等高性能计算库,提供图算融合编译优化能力,实现性能大幅提升,当前应用跨架构迁移损耗已降低至 10% 以内。
三是效率升级,构建面向智算应用的“跨架构软件工厂”,提供统一开发、调试、优化、部署、迁移全生命周期服务能力,缩短应用开发、上线时间,提升整体研发效率。
中国移动透露,当前,“芯合”算力原生基础软件栈 2.0 已实现泛 AI 应用在英伟达、英特尔、华为、瀚博、天数智芯、海光 6 家智算芯片间的一键式跨芯流转迁移,源源转换效率 > 95%,迁移性能损耗 < 10%,迁移时间 < 20s,已具备规模商用条件,未来将在提升智能算力网络自主可控水平方面发挥重要作用。
相关文章
- 2024 胡润中国人工智能企业 50 强公布:寒武纪 2380 亿
- 阿里通义万相 2.1 模型宣布升级:首次实现中文文字视频
- 开源媒体播放器 VLC 下载破 60 亿次,预览本地 AI 字幕
- 英伟达迷你超算遭友商嘲讽:宣传 FP4 算力,实际“不如买
- 银河通用发布全球首个端到端具身抓取基础大模型 Grasp
- 雷蛇推出“AI 游戏伴侣”Project AVA:支持实时指导 +
- 京东方 CES 2025 发布行业首款 65 英寸 4K 超高清“AI
- 微软开源 140 亿参数小语言 AI 模型 Phi-4,性能比肩 GP
- 微软承认必应 AI 图像生成器 PR16“开倒车”,现回滚至
- 西藏地震期间“小孩被埋”等 AI 图大量传播,严重可追责