首页 购物车 询价
www.GB-GBT.com 收录标准: 222414 (2026-05-15)
路径: 主页 > GB/T > 第224页 > GB/T 45401.2-2025

[PDF] GB/T 45401.2-2025 - 英文版

标准号码内文价格美元第2步(购买)交付天数标准名称状态
GB/T 45401.2-2025 英文版 519 GB/T 45401.2-2025 [PDF]天数 >=5 人工智能 计算设备调度与协同 第2部分:分布式计算框架 有效
基本信息
标准编号 GB/T 45401.2-2025 (GB/T45401.2-2025)
中文名称 人工智能 计算设备调度与协同 第2部分:分布式计算框架
英文名称 Artificial intelligence - Scheduling and cooperation for computing devices - Part 2: Framework for distributed computing
行业 国家标准 (推荐)
中标分类 L70
国际标准分类 35.020
字数估计 26,213
发布日期 2025-03-28
实施日期 3/28/2025
发布机构 国家市场监督管理总局、中国国家标准化管理委员会

GB/T 45401.2-2025: 人工智能 计算设备调度与协同 第2部分:分布式计算框架 ICS 35.020 CCSL70 中华人民共和国国家标准 人工智能 计算设备调度与协同 第2部分:分布式计算框架 2025-03-28发布 2025-03-28实施 国 家 市 场 监 督 管 理 总 局 国 家 标 准 化 管 理 委 员 会 发 布 目次 前言 Ⅲ 引言 Ⅳ 1 范围 1 2 规范性引用文件 1 3 术语和定义 1 4 缩略语 2 5 概述 2 5.1 总体框架 2 5.2 适用性 3 6 计算设备技术要求 3 6.1 云侧设备 3 6.2 边侧设备 4 6.3 端侧设备 4 7 分布式计算协同技术要求 5 7.1 架构 5 7.2 通用要求 5 7.3 组件要求 6 7.4 云云协同要求 8 7.5 云边端协同要求 9 7.6 多端协同要求 11 8 云边端分布式计算协同接口 12 8.1 边侧节点管理 12 8.2 部署及更新 14 8.3 任务运行管理 17 参考文献 19 前言 本文件按照GB/T 1.1-2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定 起草。 本文件是GB/T 45401《人工智能 计算设备调度与协同》的第2部分。GB/T 45401已经发布了 以下部分: ---第1部分:虚拟化与调度; ---第2部分:分布式计算框架。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本文件起草单位:中国电子技术标准化研究院、华为技术有限公司、北京航空航天大学、中国科学院 软件研究所、华为云计算技术有限公司、阿里云计算有限公司、北京百度网讯科技有限公司、浪潮电子信 息产业股份有限公司、上海商汤智能科技有限公司、北京大学武汉人工智能研究院、上海市人工智能行 业协会、中国移动通信集团有限公司、中国科学院计算技术研究所、科大讯飞股份有限公司、北京大学、 深圳云天励飞技术股份有限公司、上海天数智芯半导体有限公司、北京壁仞科技开发有限公司、杭州海 康威视数字技术股份有限公司、南方电网人工智能科技有限公司、龙芯中科技术股份有限公司、苏州登 临科技有限公司、浙江大华技术股份有限公司、蚂蚁科技集团股份有限公司、国科础石(重庆)软件有限 公司、广东电网有限责任公司、广电运通集团股份有限公司、上海计算机软件技术开发中心、上海文鳐信 息科技有限公司、京东方科技集团股份有限公司、天津(滨海)人工智能创新中心。 本文件主要起草人:曹晓琦、董建、杨雨泽、鲍薇、徐洋、于超、李斌斌、王莞尔、栾钟治、朱毅鑫、董乾、 孟令中、郑子木、吴涛、田晓利、张亚强、马珊珊、马骋昊、赵春昊、吴庚、曹汐、王煜炜、吴婷、杨超、王志芳、 余雪松、丁瑞全、叶挺群、董召杰、马莞悦、代君、孔维生、郭智慧、罗勇军、严宇平、陈浩敏、杨波、陈敏刚、 牛科科、仲凯韬、姜幸群、史殿习。 引 言 随着人工智能计算形态的不断发展,承载人工智能应用的计算设备的部署和使用呈现分布式、全场 景的趋势。同一人工智能计算任务往往需要多种形态的计算设备协作完成,为不同地域、类型的用户提 供服务。需要对不同形态的计算设备资源合理利用及分配,明确必要的技术架构、能力要求以及接口 等,为产品提供参考框架以及评价体系,缓解不同形态人工智能计算设备横向协同割裂的现状。 GB/T 45401《人工智能 计算设备调度与协同》拟由两个部分组成。 ---第1部分:虚拟化与调度,旨在确立人工智能计算设备虚拟化与调度系统的架构,规定技术要 求及对应的测试方法。 ---第2部分:分布式计算框架,旨在确立人工智能计算设备分布式计算的架构,规定功能和性能 技术要求,定义分布式计算协同接口。 人工智能 计算设备调度与协同 第2部分:分布式计算框架 1 范围 本文件确立了人工智能计算设备分布式计算的架构,规定了功能和性能技术要求,定义了分布式计 算协同接口。 本文件适用于用于分布式人工智能计算系统的设计、开发和测试。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文 件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于 本文件。 GB/T 41867 信息技术 人工智能 术语 GB/T 42018-2022 信息技术 人工智能 平台计算资源规范 GB/T 45401.1-2025 人工智能 计算设备调度与协同 第1部分:虚拟化与调度 GB/T 45280-2025 人工智能 异构人工智能加速器统一接口 GB/T 45087-2024 人工智能 服务器系统性能测试方法 3 术语和定义 GB/T 41867、GB/T 42018-2022、GB/T 45401.1-2025和GB/T 45280-2025界定的以及下列术 语和定义适用于本文件。 3.1 一种机器学习的方法或过程,利用互联网络作为首选通信载体,在不同子系统上完成同一个机器学 习任务。 注1:互联网络包含局域互联网及广域互联网。 注2:分布式按照机器学习任务种类不同,分布式机器学习分为分布式训练、分布式推理。 [来源:ISO/IEC 2382:2015,2178059,有修改] 3.2 联邦[机器]学习 federated[machine]learning 一种机器学习方法或过程,使多个参加者协作构建及使用机器学习模型而不暴露参加者的私有 数据。 3.3 增量学习 incrementallearning 一种分为多个阶段的自适应学习方法,其中在前驱阶段学得的知识被转化为适当形式,以便为后继 阶段的新知识提供基础。 注1:在机器学习领域的某些文献里,增量学习称为“(机器学习模型的)增量(预)训练”。 注2:模型微调是增量学习的方式之一。 [来源:ISO/IEC 2382:2015,2123002,有修改] 3.4 边侧计算 edgecomputing 一种分布式计算方法或过程,其中处理及存储过程发生在分布式系统的边侧。 注:计算发生靠近边侧的程度按系统的需求定义设定。 [来源:ISO/IEC TR23188:2020,3.1.3] 3.5 一种通信模式,其所传递数据在一组处理器单元(称为节点)上处理,其进程或计算节点之间协同工 作以进行数据交换和同步。 注:集合通信的过程一般涉及有多个接受者和发送者。 4 缩略语 下列缩略语适用于本文件。 SSL:安全套接字层(SecureSocketsLayer) 5 概述 5.1 总体框架 AI分布式计算协同的总体框架见图1,包含: a) AI任务的生命周期(如设计、训练、部署、运行、更新和回收); b) AI计算设备(如云侧、边侧、端侧设备)的分布式协同模式和运行环境; c) AI任务生命周期内的协同计算任务(如统一资源池化、分配、调度等)。 注:涉及分布式协同的AI任务(如分布式机器学习、模型多端部署推理、增量学习、联邦学习等)。 图1 AI分布式计算协同的总体框架 5.2 适用性 在使用本文件时,应基于计算协同系统的组成和目标应用场景,匹配协同模式,包括云云协同(见 7.4)、云边端协同(见7.5)、多端协同(见7.6),并满足相应的技术要求。不要求单个特定系统符合所有 的协同模式和技术要求。 6 计算设备技术要求 6.1 云侧设备 6.1.1 概述 云侧AI计算设备及其使用。 a) 类型包含: 1) 云侧训练(包含微调); 2) 云侧推理; 3) 增量学习; 4) 联邦学习。 b) 遵循以下使用原则: 1) 训练过程与数据源分离; 2) 监控AI任务全生命周期过程; 3) 共享计算资源; 4) 使用虚拟化技术管理计算资源; 5) 针对计算需求,启用弹性伸缩机制增强计算资源使用效率。 6.1.2 技术要求 云侧AI计算设备,符合以下要求。 a) 应符合GB/T 42018-2022中6.1.1.1和6.1.1.2的要求。 b) 应支持模型训练所需的组件或实现,包含: 1) 机器学习框架; 2) 云侧分布式集群训练加速组件; 3) 训练过程可视化工具(包含训练过程,数据处理过程等)。 c) 应提供与边侧设备或端侧设备兼容的互操作协议及接口。 d) 应支持训练或推理任务镜像管理。 e) 宜支持异构AI加速处理器的资源池化和统一调度。 6.2 边侧设备 6.2.1 概述 边侧AI计算设备参与协同计算,遵循以下使用原则: a) 将小规模的计算与服务部署在边侧或端侧; b) 存储、传输、计算和安全任务; c) 在本地执行数据处理,避免数据网络传输中的风险; d) 采取措施,按场景需求实现实时性。 6.2.2 技术要求 边侧AI计算设备,符合以下要求: 注:AI边侧计算设备包含但不限于应用于边侧计算场景的AI服务器、AI加速卡和AI加速模组。 a) 应提供与端侧设备或云侧设备的协同接口; b) 应具备数据隔离措施,在受攻击时,只影响本地设备,而非其他参与协同的设备; c) 宜支持视频分析、文字识别、图像识别和声音处理等应用; d) 宜支持流数据的实时处理; e) 宜能在边侧存储实时信息; f) 宜能独立本地监控或配合云侧设备监控边侧节点的运行状态; g) 宜支持推理任务或训练任务。 6.3 端侧设备 6.3.1 概述 端侧AI设备参与协同计算,一般部署在数据或处理需求发生(如数据源)的位置附近。 6.3.2 技术要求 端侧AI计算设备,符合以下要求。 a) 应支持基于轻量化机器学习框架的运行(训练或推理)。 b) 应支持脱离机器学习框架的模型部署,在设备上直接运行。 c) 宜支持分布式训练,包含: 1) 其他端侧设备、云侧设备或边侧设备协同训练; 2) 兼容至少1种分布式训练框架; 3) 支持差分隐私机制。 d) 宜支持数据预处理(如图像缩放、图像填充、图像旋转、声音去噪等)。 e) 宜支持与边侧设备或云侧设备的交互,完成推理。 f) 宜支持多端协同,包含但不限于: 1) 管理多个端侧设备; 2) 多个端侧设备之间的数据协同与共享; 3) 多个端侧设备之间计算任务的调度与分发。 7 分布式计算协同技术要求 7.1 架构 AI计算设备分布式计算的架构见图2。 注:虚线框起的部分是GB/T 45401.1-2025中规定的内容,也是分布式管理架构中的必备组件之一。 图2 AI计算设备分布式计算架构 7.2 通用要求 AI计算设备分布式计算协同,符合以下要求。 a) 应能管理机器学习算法的运行环境配置,包括支持云侧设备、边侧设备和端侧设备。 b) 云侧、边侧或端侧的AI计算设备上支持应用的运行,满足以下要求: 1) 应支持云侧模型裁剪、压缩和优化; 2) 宜支持联邦学习; 3) 宜支持云侧、云-边或云-端协同推理; 4) 应支持云侧分布式训练,宜支持边侧分布式训练; 5) 宜支持云-边协同的增量学习。 c) 实现分布式计算过程,符合以下要求: 1) 应具备容错性,在训练过程中有节点或网络连接出现故障(如节点、交换或路由设备不工 作或性能下降)时,保证原有任务的继续进行,直至完成; 2) 宜提供统一的编程模型,屏蔽不同机器学习框架或异构计算设备的差异; 3) 宜能利用集群中分布式存储设备,根据不同的分布式计算场景(如云侧内部,端云,边云 等)设置相应的存储方式; 4) 应支持计算设备管理,能虚拟化并分配AI加速卡或AI加速处理器资源。 注1:计算设备的管理和调度,见GB/T 45401.1-2025。 d) 分布式多终端协同,符合如下要求: 1) 宜实现去中心化的多端侧设备AI任务协同; 2) 应实现节点状态的实时维护与共享(含节点资源使用状态); 3) 应实现调度实时性保障机制(如超时机制等); 注2:集群组网使用无线连接(如无线局域网或蓝牙)时,可能会出现传输速率有限且不稳定的情况。 4) 宜实现设备状态或能力适应性协同策略(如按可用计算能力调度); 注3:如多端侧设备结构不同,能力不同,计算资源的分布可能不均衡。 5) 计算调度过程不应影响其他设备或应用的运行(如正常的视频播放任务不应被打断或卡 顿等)。 7.3 组件要求 7.3.1 机器学习框架 用于分布式机器学习任务的机器学习框架,符合以下要求。 a) 应能在云侧、边侧或端侧设备上运行。 b) 配备模型部署工具,符合以下要求: 1) 应支持模型在云侧部署; 2) 应支持轻量化框架(特定场景中非必要组件被剪裁),能将云侧训练的模型部署在端侧或 边侧; 3) 应支持在内存受限的环境中运行; 4) 宜支持模型量化,并在用户需求允许的误差范围内,使模型从云侧迁移至端侧或边侧。 c) 应支持以下至少1种计算协同模式: 1) 云侧训练-端侧推理; 2) 云侧训练-边侧推理; 3) 云-端联邦学习; 4) 云-边联邦学习; 5) 云-边-端联合推理。 d) 宜支持云端边AI计算协同模式,包含但不仅限于: 1) 云侧训练-端侧增量学习-端侧推理; 2) 云侧训练-边侧增量学习-边侧推理; 3) 云侧训练-边侧增量学习-端侧推理。 e) 宜在跨云侧、边侧、端侧应用统一的计算图中间表示,支持一次训练后的模型在端、边、云上的 无(格式)转换部署。 7.3.2 虚拟化与调度组件 AI加速处理器或AI加速卡的虚拟化与调度组件,符合以下要求。 a) 应符合GB/T 45401.1-2025中规定的虚拟化要求。 b) 资源调度系统应能调用的计算资源: 1) 应包含AI训练加速卡、AI推理加速卡、AI加速处理器及虚拟化实例; 2) 宜包含能运行训练及推理任务的处理器及虚拟化实例。 c) 任务调度,符合以下要求: 1) 应支持云侧内部的训练任务调度,实现分布式训练; 2) 宜支持边侧设备间的训练任务调度,支持边侧增量学习或分布式训练; 3) 应支持云-边推理任务调度,支持GB/T 45087-2024中7.2规定的至少1种大模型的推 理,克服单处理器或单卡运行时内存限制; 4) 宜支持云-边训练任务调度,能完成云侧训练-边侧增量学习的任务; 5) 宜支持云-端训练任务调度,完成云-端协同训练任务(如联邦学习); 6) 宜支持云-端推理任务调度,完成云侧训练-端侧推理任务; 7) 宜支持边-端训练及推理任务调度,完成边侧训练(如增量学习)-端侧推理的任务。 7.3.3 安全组件 7.3.3.1 安全原则 AI分布式协同计算相关组件的应用,应按图1规定的生命周期和流程,识别以下风险,包含但不限 于以下内容。 a) 易受窃取等攻击的资产及相关攻击模式,包含: 1) 训练脚本或代码文件; 2) 训练数据集文件; 3) 模型文件(包含预训练模型文件、训练结果文件和在计算节点中的模型文件)。 b) 模型文件,在云、边、端侧的完整性被破坏(如被修改)。 c) 模型及相关文件(含训练脚本、训练数据集、模型的参数文件等)的机密性被破坏。 d) 因受到攻击,导致输出结果错误,或无法正常输出结果。 e) 推理输入数据被拦截或修改。 f) 云侧或边侧的容器构建、部署、运行安全威胁。 g) 边侧接口的非授权接入和访问。 h) 在无中心(如多终端、多边缘)架构系统中忽略使用热备、冗余机制,造成数据丢失或业务中断。 7.3.3.2 安全要求 7.3.3.2.1 为训练阶段实现安全防护机制,符合以下要求。 a) 云侧: 1) 应能对上载到云侧的加密模型、训练数据和训练脚本,实施解密; 2) 应能在运行训练脚本前,校验训练镜像文件。 b) 边侧: 1) 应支持云侧下发镜像的校验和模型的解密; 2) 宜支持联邦学习梯度信息的加解密; 3) 宜支持端侧设备上传数据的签名和加密。 c) 端侧:宜支持联邦学习梯度数据的加密。 7.3.3.2.2 为推理阶段实现安全防护机制,符合以下要求。 a) 云侧: 1) 应支持在云侧配置模型所在容器的最小访问权限; 2) 应支持模型的加解密; 3) 应能对加载到云侧的镜像实施完整性校验。 b) 边侧: 1) 宜支持密钥管理,能对云侧下发的镜像或模型实施校验和解密; 2) 宜支持推理数据的加解密; 3) 宜支持入侵检测,实现用户权限管理,能记录和警告非授权访问; 4) 宜支持用户身份校验,实现应用的授权访问。 c) 端侧: 1) 宜支持密钥管理,能对云侧或端侧下发的模型实施校验和解密; 2) 宜支持推理数据的本地加解密; 3) 宜能在模型上传至云侧或边侧推理之前,加密模型; 4) 宜能在端侧设备使用虚拟机或容器时,在多端侧设备间实现基于虚拟机或容器的安全隔 离机制。 7.3.4 集合通信库 集合通信库符合如下要求。 a) 应实现AI加速卡间或AI加速器间的通信(如云侧内部分布式训练所需的通信)。 b) 应能在下列至少1项拓扑结构上工作: 1) 全网状结构(Ful Mesh); 2) 星形拓扑结构(Star); 3) 环形拓扑结构(Ring); 4) 树拓扑结构(Tree); 5) 3DTorus拓扑结构; 6) Dragonfly拓扑结构。 c) 宜实现同步机制和超时控制机制。 d) 应支持或兼容至少1种集合通信协议,如ROCE或RDMA等。 e) 应支持集合通信效率衡量指标,如延时、延时方差、延时均值等。 f) 应实现统一的集合通信接口,宜符合GB/T 45280-2025的要求。 7.4 云云协同要求 云云协同的框架如图3所示,协同过程符合以下要求。 a) 应实现有中心调度或无中心调度(如基于云联邦的调度)。 b) 对有中心调度,中心调度器: 1) 应能收集和监视全网计算资源的状态; 2) 应能跨云(或计算中心)调度任务,转发和传输作业运行数据; 3) 宜实现至少1种调度策略(如负载感知调度、价格感知调度、网络感知调度或数据感知调 度等)。 c) 对有中心调度,调度适配器: 1) 应能收集调度器资源和作业执行状态信息,并上报至中心调度器; 2) 宜能向授权用户提供统一视图,使其能驱动特定计算资源执行计算任务。 d) 宜实现基于统一账户系统的认证和确权。 e) 宜实现统一的计算消耗计量和计费。 图3 云云协同框架 7.5 云边端协同要求 7.5.1 管理协同 云边端协同框架见图4,管理协同符合如下要求。 a) 应支持边侧或端侧单节点或节点组的管理。 b) 应支持边侧或端侧异构设备(如使用不同类型的 AI加速处理器)的管理,提供统一的管理 接口。 c) 应支持边侧计算任务监控,包含运行于容器中的计算任务。 d) 应支持操作系统异构(如基于Linux、Android、Windows等多种操作系统)边侧设备的管理和 任务协同。 e) 应为边侧或端侧设备提供统一的运行时组件,屏蔽边侧或端侧设备操作系统差异。 f) 应支持边侧许可证的管理和使用,宜能根据许可信息控制边侧AI计算任务的数量、数据接入 路数(如摄像头视频数据)、请求并发度阈值或使用时长。 g) 应支持模型加密。 h) 应支持密钥的云侧加密保存。 i) 应支持基于密钥的边侧模型运行控制(运行前需解密模型)。 j) 应支持密钥的云侧导出和边侧本地导入解密。 k) 应支持边侧设备上用于模型解密的证书的合法性校验。 l) 宜支持远程安全链接(如SSL),登录、监视、调试边侧设备。 m)应支持云侧对边侧设备的监控,或边侧设备的本地监控,监控对象包含设备内存、磁盘、AI加 速处理器使用率,宜支持边侧设备运行异常警告。 n) 宜支持云侧管理不小于128个边侧节点。 o) 宜支持至少2类设备的接入,如: 1) 移动通信端侧(如手机、计算机); 2) 摄像机; 3) 智能机器人; 4) 物联网传感器; 5) 激光雷达、毫米波雷达; 6) 信号机; 7) 气象要素传感器; 8) 道路单元。 p) 宜支持基于图形界面的边侧或端侧设备管理。 图4 云边端协同框架 7.5.2 任务协同 云边任务协同,符合以下要求。 a) 应支持云上模型训练,边侧或端侧部署及推理的协同模式。 b) 应支持向边侧设备或端侧设备部署含有模型的容器镜像。 c) 应支持至少1种大模型(见GB/T 45087-2024中7.2)在边侧或端侧的部署及推理(在边侧或 端侧设备功能允许时)。 d) 应支持边侧或端侧设备(在云侧注册后)的离线运行。 e) 应支持查询和配置边侧或端侧设备的功能或服务(如服务名称、状态、请求模式、部署方式、创 建时间和描述等)。 f) 应支持边侧AI计算任务的启动和停止。 g) 宜支持边侧AI计算任务的创建、查询、修改和删除。 h) 宜支持设定边侧AI计算任务的运行计划配置(如按时段或特定频率)。 i) 宜支持边侧或端侧设备上任务执行状态统计(如调用次数、调用成功率等)。 j) 宜支持基于多个边侧设备形成资源池,实现以下功能: 1) 资源池创建、状态查询、配置修改(如修改描述、边侧节点等); 2) 池内设备间的......

英文网页English: GB/T 45401.2-2025

相关标准: GB/T 43195 | GB/T 45394 | GB/T 45399 | GB/T 45401.1 |