GB/T 45401.1-2025 相关标准英文版PDF
| 标准号码 | 价格美元 | 第2步(购买) | 交付天数 | 标准名称 |
| GB/T 45401.1-2025 | 599 | GB/T 45401.1-2025 | [PDF]天数 <=5 | 人工智能 计算设备调度与协同 第1部分:虚拟化与调度 |
| 基本信息 | |
|---|---|
| 标准编号 | GB/T 45401.1-2025 (GB/T45401.1-2025) |
| 中文名称 | 人工智能 计算设备调度与协同 第1部分:虚拟化与调度 |
| 英文名称 | Artificial intelligence - Scheduling and cooperation for computing devices - Part 1: Virtualization and scheduling |
| 行业 | 国家标准 (推荐) |
| 中标分类 | L70 |
| 国际标准分类 | 35.020 |
| 字数估计 | 30,372 |
| 发布日期 | 2025-02-28 |
| 实施日期 | 2025-02-28 |
| 发布机构 | 国家市场监督管理总局、中国国家标准化管理委员会 |
GB/T 45401.1-2025: 人工智能 计算设备调度与协同 第1部分:虚拟化与调度
中华人民共和国国家标准
ICS 35.020CCS L 70
人工智能 计算设备调度与协同
第 1 部分:虚拟化与调度
Artificial intelligence-Scheduling and cooperation for computing devices-
Part 1:Virtualization and scheduling
2025⁃02⁃28 发布
2025⁃02⁃28 实施
国 家 市 场 监 督 管 理 总 局
国 家 标 准 化 管 理 委 员 会 发 布
目次
前言·····Ⅲ
引言·····Ⅳ
1 范围·····1
2 规范性引用文件····1
3 术语和定义·····1
4 缩略语·····3
5 概述·····3
6 计算设备虚拟化技术要求···4
6.1 概述····4
6.2 基本要求·····4
6.3 扩展要求·····7
7 计算资源调度技术要求····10
7.1 概述·····10
7.2 功能要求····11
7.3 性能优化要求····12
7.4 调度策略要求····12
7.5 接口要求····12
8 运维监控技术要求···13
8.1 AI加速卡监控···13
8.2 计算实例监控····14
8.3 AI任务监控····14
8.4 日志监控····15
9 测试方法····16
9.1 虚拟化测试·····16
9.2 调度测试····19
附录 A(资料性) 典型处理器的虚拟化参考架构·····22
A.1 NPU 虚拟化参考架构····22
A.2 CPU 虚拟化参考架构····23
参考文献·····25
前言
本文件按照 GB/T 1.1-2020《标准化工作导则 第 1 部分:标准化文件的结构和起草规则》的规
定起草。
本文件是 GB/T 45401《人工智能 计算设备调度与协同》的第 1 部分。GB/T 45401 已经发布了
以下部分:
--第 1 部分:虚拟化与调度;
--第 2 部分:分布式计算框架。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由全国信息技术标准化技术委员会(SAC/TC 28)提出并归口。
本文件起草单位:中国电子技术标准化研究院、华为技术有限公司、北京航空航天大学、中国科学
院软件研究所、华为云计算技术有限公司、阿里云计算有限公司、北京百度网讯科技有限公司、浪潮电
子信息产业股份有限公司、上海商汤智能科技有限公司、北京大学武汉人工智能研究院、上海市人工智
能行业协会、中国移动通信集团有限公司、中国科学院计算技术研究所、科大讯飞股份有限公司、北京
大学、深圳云天励飞技术股份有限公司、上海天数智芯半导体有限公司、北京壁仞科技开发有限公司、
杭州海康威视数字技术股份有限公司、南方电网人工智能科技有限公司、龙芯中科技术股份有限公司、
苏州登临科技有限公司、浙江大华技术股份有限公司、蚂蚁科技集团股份有限公司、国科础石(重庆)软
件有限公司、中国南方电网有限责任公司、广电运通集团股份有限公司、上海计算机软件技术开发中
心、上海文鳐信息科技有限公司、京东方科技集团股份有限公司、天津(滨海)人工智能创新中心。
本文件主要起草人:范科峰、杨雨泽、李斌斌、于超、徐洋、王莞尔、曹晓琦、董建、鲍薇、栾钟治、朱毅鑫、
董乾、孟令中、郑子木、吴涛、田晓利、张亚强、马珊珊、马骋昊、赵春昊、吴庚、曹汐、王煜炜、吴婷、杨超、
王志芳、余雪松、丁瑞全、叶挺群、卢志良、马莞悦、代君、孔维生、郭智慧、罗勇军、梁志宏、巫伟南、杨波、
陈敏刚、牛科科、仲凯韬、姜幸群、史殿习。
引 言
随着人工智能计算形态的不断发展,承载人工智能应用的计算设备的部署和使用呈现分布式、全
场景的趋势。同一人工智能计算任务往往需要多种形态的计算设备协作完成,为不同地域、类型的用
户提供服务。需要对不同形态的计算设备资源合理利用及分配,明确必要的技术架构、能力要求以及
接口等,为产品提供参考框架以及评价体系,缓解不同形态人工智能计算设备横向协同割裂的现状。
GB/T 45401《人工智能 计算设备调度与协同》拟由两个部分组成。
--第 1 部分:虚拟化与调度。旨在确立人工智能计算设备虚拟化与调度系统的架构,规定技术
要求及对应的测试方法。
--第 2 部分:分布式计算框架。旨在确立人工智能计算设备分布式计算的架构,规定功能和性
能技术要求,定义分布式计算协同接口。
人工智能 计算设备调度与协同
第 1部分:虚拟化与调度
1 范围
本文件给出了人工智能计算设备虚拟化与调度的架构,规定了技术要求,描述了测试方法。
本文件适用于人工智能计算设备虚拟化与调度的系统设计、研发和测试。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文
件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于
本文件。
GB/T 41867 信息技术 人工智能 术语
GB/T 45087-2024 人工智能 服务器系统性能测试方法
3 术语和定义
GB/T 41867 界定的以及下列术语和定义适用于本文件。
3.1
人工智能计算单元 artificial intelligence computing unit
执行人工智能计算任务所必要的部件的最小集合。
注: 人工智能计算单元一般封装在人工智能加速器或加速卡中。
3.2
人工智能加速[处理]器 artificial intelligence accelerating [processor]unit
人工智能加速芯片 artificial intelligence accelerating chip
具备适配人工智能算法的运算微架构,能完成人工智能应用运算处理的集成电路元件。
3.3
人工智能加速卡 artificial intelligence accelerating card
专为人工智能计算设计、符合人工智能服务器硬件接口的扩展加速设备。
注: 人工智能加速卡按适用场景分为人工智能训练加速卡、人工智能推理加速卡等。
3.4
人工智能计算实例 artificial intelligence computing instance
执行人工智能计算任务的虚拟化对象。
3.5
虚拟化 virtualization
用于表示与潜在的物理资源解耦的资源表示形式。
[来源:ISO/IEC 17826:2022,3.55]
3.6
[异构]资源池 [heterogeneous] resource pool
由不同架构的人工智能计算资源集合形成的抽象实体。
注 1: [异构]资源池提供一种可伸缩计算架构,有利于合理分配计算资源,为不同运行环境(例如云、集群、移动设备、
物联网)的人工智能应用系统的开发和部署提供计算能力、存储、带宽和延时保障。
注 2: [异构]资源池用于管理调度人工智能计算资源,以满足不同人工智能计算任务的需求。
注 3: 人工智能计算资源包括中央处理单元(CPU)、图形处理单元(GPU)、神经网络处理单元(NPU)、现场可编程
逻辑门阵列(FPGA)、数字信号处理器(DSP)、专用集成电路(ASIC)等。
3.7
计算能力 computing capability
产品或系统能满足计算需求的最大程度。
3.8
神经网络处理器 neural⁃network processing unit
专门针对神经网络计算进行特殊优化设计的集成电路元件。
注: 该类集成电路元件擅长处理视频、图像、语音类多媒体数据。
3.9
人工智能计算任务 artificial intelligence computing task
为取得特定人工智能计算目标所需的活动。
注: 本文件中,在不引起误解的语境中,人工智能计算任务一般指推理任务或训练任务。
3.10
性能 performance
在运行计算任务时,可被测量的特性。
注 1: 性能包含定性及定量的特征。
注 2: 性能基于一个或多个参数(如能耗、流量、吞吐率、运行时间以及速率等)的测量或计算获得,以表征在某机器
中运行的某技术过程的行为、特性以及效率。
注 3: 在评估人工智能任务的性能时,一般采用吞吐率特性。
[来源:ISO/IEC 20000⁃10:2018,3.1.16,有修改]
3.11
人工智能计算集群 artificial intelligence cluster
遵循统一控制的,人工智能计算功能单元的集合。
注 1: 人工智能计算功能单元可包含人工智能加速器、人工智能服务器、人工智能加速模组等。
注 2: 当由人工智能服务器组成时,人工智能集群又称为人工智能服务器集群。
3.12
节点 node
由网络连接的能完成特定人工智能计算任务的物理或逻辑人工智能计算设备。
[来源:ISO/IEC 14575:2000,3.2.27,有修改]
3.13
调度 scheduling
控制特定任务的整体或部分的执行场所和时间的过程。
注: 在本文件中,场所一般指人工智能计算单元。
[来源:ISO/IEC 10164⁃15:2002,3.7.4,有修改]
3.14
调度器 scheduler
在系统中完成调度的组件。
注: 在本文件中,调度器用于面向不同的计算需求分配人工智能计算资源。
3.15
调度策略 scheduling policy
在系统中匹配任务的整体或部分执行场所和时间,完成任务调度的策略。
3.16
隔离 isolation
计算实例间的计算和数据相互不影响和不可访问。
注: 算力隔离指的是计算实例之间的计算能力不互相影响。
[来源:ISO/IEC TS 25052⁃1:2022, 3.1.5.3, 有修改]
4 缩略语
下列缩略语适用于本文件。
AI:人工智能(Artificial Intelligence)
API:应用程序编程接口(Application Programming Interface)
BAR:基址寄存器(Base Address Register)
CPU:中央处理器(Center Processing Units)
DDR:双倍速率传输率(Double Data Rate)
DMA:直接存储器访问(Direct Memory Access)
FLOPS:每秒浮点运算次数(Floating⁃Point Operations Per Second)
FPGA:现场可编程逻辑门阵列(Field Programmable Gate Array)
FPS:每秒帧数(Frames Per Second)
FP16:16 位浮点数(Floating⁃point 16⁃bit number)
GDDR:图形双倍速率传输存储器(Graphics DDR SDRAM)
GPA:客户机物理地址(Guest Physical Address)
GPU:图形处理器(Graphics Processing Units)
HBM:高带宽存储器(High Bandwidth Memory)
ID:身份标识(Identity Document)
INT8:8 位整型数(Integer 8⁃bit number)
IO:输入/输出(Input Output)
IOMMU:输入输出内存管理单元(Input Output Memory Management Unit)
IOVA:输入/输出虚拟地址(Input Output Virtual Address)
NIC:网络接口卡(Network Interface Card)
NPU:神经网络处理器(Neural⁃network Processing Units)
OPS:每秒运算次数(Operations Per Second)
OS:操作系统(Operating System)
PCIE:外设部件互联高速通道(Peripheral Component Interconnect Express)
QEMU:快速模拟器(Quick EMUlator)
QoS:服务质量(Quality of Service)
SR⁃IOV:单根输入/输出虚拟化(Single Root Input Output Virtualization)
VFIO:虚拟功能输入/输出(Virtual Function Input Output)
VM:虚拟机(Virtual Machine)
VMM:虚拟机管理器(Virtual Machine Manager)
VMX:虚拟机扩展(Virtual Machine Extension)
5 概述
AI 计算设备虚拟化与调度的架构见图 1。AI 计算虚拟化,为 AI 物理计算资源提供特定的表示形
式,虚拟化方案包含对基于 CPU、GPU、NPU、FPGA 等物理 AI 加速卡的虚拟化。(多种)虚拟化方案
通过统一的接入组件形成资源池,以一致的方式使用 AI物理计算资源。调度器根据 AI任务和资源池
的情况,选择若干虚拟化的 AI 计算实例,分配并执行特定任务。运维监控实现对 AI 计算实例、AI 物
理计算资源(AI加速卡)、AI任务及其状态的监测与控制。
注 1: 虚线框部分不属于本文件标准化的范畴。
注 2: FPGA的虚拟化方案,涵盖 FPGA与 CPU的混合架构。
注 3: 1个AI应用一般分解为若干个AI计算任务,下发给调度器。
图 1 AI 计算设备虚拟化与调度的架构
6 计算设备虚拟化技术要求
6.1 概述
计算设备虚拟化技术是一种计算资源管理的方法,切分、调配或整合含有各类型加速器的不同 AI
加速卡,使其执行 AI计算任务,以提高计算资源利用率。
注: 本文件规范计算设备虚拟化技术,不对网络、存储等其他物理资源提出要求,但对计算资源与其他资源的协同
对接提出要求。
6.2 基本要求
6.2.1 AI加速卡虚拟化
AI加速卡的虚拟化,包含以下要求:
a) 应支持单个 AI加速卡虚拟化为多个计算实例;
b) 宜支持多个 AI加速卡虚拟成单个计算实例;
c) 计算实例应能在虚拟机或容器中执行计算任务;
d) 宜支持单个 AI加速卡的算力隔离;
e) 计算实例应能被计算设备调用。
6.2.2 监测
虚拟化组件或系统,宜实现下列对计算实例属性的监测,包括:
a) 资源(含计算资源)利用率监测;
b) 算子执行时延统计;
c) 计算实例带宽利用率监测;
d) 计算实例的性能波动(见 9.1.4.4)监测;
e) 虚拟化后,AI加速卡的计算能力损耗统计;
f) 计算实例运行时长统计。
6.2.3 隔离性
虚拟化组件或系统的隔离性包含如下要求。
a) 应支持故障隔离,符合以下要求:
1) 计算实例内的单点故障信息只上报其所属的虚拟机或容器及虚拟化管理系统;
2) 支持多个计算实例运行互不干扰;
3) 提供调用、返回特定计算实例的业务故障;
4) 支持计算实例获知其所依赖物理设备的单点故障。
b) 应支持性能隔离,即特定用户使用计算资源的性能,不被并发执行的其他用户的任务影响,而
出现下降的情况。
c) 应支持安全隔离,包含但不限于防止未经授权的访问和攻击。
6.2.4 重配置
虚拟化组件或系统,实现在多用户和动态任务情况下的计算资源重配置,以提高系统整体性能,符
合以下要求。
a) 应为单个 AI任务的独立运行,实现 QoS 服务质量机制。
b) 应为多个 AI任务的同时运行,实现资源获得公平性机制。
注: 公平性指的是相同优先级的不同用户和程序对于计算资源有着同样的使用权。
c) 应为 AI 任务的动态负载特性或资源可变特性要求,实现资源复用机制(如分时复用或分区
复用)。
d) 宜能够与下列机制或过程配合使用,包含但不限于:
1) 高可用 AI计算集群;
2) 负载均衡,即分配特定的业务(网络服务、网络流量等)给多台网络设备(包括服务器、防
火墙等)或多条链路;
3) 内存复用,方式包括内存气泡、内存置换、内存共享等;
4) CPU、内存、AI加速[处理]器等的扩容。
e) 宜支持查询 AI计算加速卡间互联信息。
6.2.5 资源抽象
虚拟化与调度系统的资源抽象,符合以下要求。
a) 计算实例应支持执行以下计算,包括但不仅限于:
1) 完整的卷积计算;
2) 完整的向量计算;
3) 完整的标量计算;
4) 数据传输、交换和格式转换。
b) 计算实例应包含以下部件并作为调度依据:
1) 计算部件;
2) 存储部件,如缓存、内存等;
3) 数据通信部件。
c) 1 个计算实例可对应单台或多台 AI计算设备的全部物理资源或部分物理资源。
d) 当虚拟出多个计算实例时,单 AI 加速卡所含的硬件资源应能被映射为多个 AI 加速卡,包含
对处理器、内存等资源的切分,映射为不同的设备,并受硬件资源总数的限制。
e) 事件、标识和任务及相关机制以软件实现时,应不受硬件资源总数的限制。
6.2.6 协调性
AI任务的计算图的任务抽象与资源抽象应具备协调性,符合如下要求。
注: AI计算图用有向图表示,1个有向图由点和边构成,表示神经网络的计算流程,是一种逻辑流图,在硬件上转换
为物理流图。
a) AI任务数据流图中的资源抽象包括:
1) 有向图中的点表示计算;
2) 有向图中的边表示数据依赖;
3) 数据流连接线以输出箭头表示将数据写入数据存储;
4) 数据流连接线以输入箭头表示从数据存储中读取数据。
b) 宜考虑用于执行数据流图的虚拟设备。
c) 计算流宜考虑如下约束:
1) 计算流的同步,即一个计算流中的任务依赖于另一个计算流中的任务;
2) 计算流可并行处理,受硬件资源约束。
6.2.7 计算实例表示
计算实例应由以下属性表示。
a) 计算实例规格,包含:
1) 计算能力,如吞吐率、有效计算能力、FLOPS 等;
2) 内存空间,如片上内存等;
3) 数据传输率,如上下行带宽;
4) 计算精度,如 FP16、INT8 等。
b) 计算实例拓扑,包含:
1) 计算实例所属的 AI加速卡;
2) 加速卡所属的服务器及其在服务器中的位置;
3) 服务器所属的 AI计算集群,及其在 AI计算集群中的位置。
c) 计算实例状态,包含:
1) 使用中:计算实例当前正在执行相关的计算任务;
2) 可用:当前的计算实例整体或其部分,处于空闲状态;
3) 不可用:当前计算实例已被占用或损坏,无法执行相关任务。
6.2.8 计算实例管理
计算实例管理要求如下。
a) AI计算设备虚拟化系统或组件,应支持在以下情况更新资源池:
1) 加入新的计算实例;
2) 计算实例被释放;
3) 空闲计算实例被占用;
4) 计算实例进入等待队列;
5) 计算实例被损坏;
6) 损坏的计算实例修复。
b) 单个 AI加速卡的虚拟化,宜通过接口调用满足如下功能:
1) 创建的 AI 虚拟计算资源,关联其归属的父设备(AI 虚拟计算资源所在的物理 AI 加速
器),并提供相关的查询,包括但不限于:Python 编程接口、sysfs 接口、命令;
2) 对计算实例的操作、控制接口;
3) 提供可写接口,用于填入创建虚拟化节点的必要信息;
4) 设备描述信息获取接口;
5) 虚拟化计算节点的驱动接口信息(驱动 API);
6) 指向每个虚拟化计算节点的软链接。
c) AI计算设备虚拟化系统或组件,应支持计算资源的删除与恢复,包含如下要求:
1) 计算资源的非物理删除;
2) 恢复已删除的资源(如计算资源的重新发现)。
d) AI计算设备虚拟化系统或组件,应支持提供接口,获取如下实例信息:
1) 计算能力的监控和统计信息(如资源调度层所管理的物理计算能力的总和);
2) 计算实例所在的 AI加速卡信息;
3) 计算实例的规格信息,包括内存、可观测带宽等;
4) 计算实例的算子时延剖析、时延统计信息。
e) AI计算设备虚拟化系统或组件,应支持计算资源分配,包括:
1) 单 AI加速器的分配;
2) 多 AI加速器的整体原子分配(全部分配成功,或全部都分配失败)。
f) AI计算设备虚拟化系统或组件,应支持计算实例的回收,包括:
1) 一次回收单个计算实例;
2) 一次回收多个计算实例,且保证操作的原子性。
6.3 扩展要求
6.3.1 CPU虚拟化
6.3.1.1 概述
CPU 虚拟化分为基于软件的虚拟化和硬件辅助的虚拟化。CPU 一般用于推理任务。虚拟机可使
用多个 CPU 计算实例,这些计算实例可源于同一个物理 CPU 或多个物理 CPU 的虚拟化。CPU 虚拟
化的参考架构见附录 A 中的 A.2。
6.3.1.2 CPU计算实例
CPU 虚拟化系统或组件,应符合以下要求。
a) CPU 计算实例能完成机器学习推理任务。
b) 能避免宿主机上 CPU 资源的浪费。
c) 支持 CPU 计算实例的动态横向弹......