路径: 主页 > GB/T > 第236页 > GB/T 45079-2024

[PDF] GB/T 45079-2024 - 英文版

标准号码	内文	价格美元	第2步(购买)	交付天数	标准名称	状态
GB/T 45079-2024	英文版	439	GB/T 45079-2024	[PDF]天数 >=4	人工智能深度学习框架多硬件平台适配技术规范	有效

基本信息
标准编号	GB/T 45079-2024 (GB/T45079-2024)
中文名称	人工智能深度学习框架多硬件平台适配技术规范
英文名称	Artificial intelligence - Technical specification for deep learning framework adaption to multi-hardware platform
行业	国家标准 (推荐)
中标分类	L60
国际标准分类	35.020
字数估计	22,257
发布日期	2024-11-28
实施日期	2024-11-28
发布机构	国家市场监督管理总局、中国国家标准化管理委员会

GB/T 45079-2024: 人工智能深度学习框架多硬件平台适配技术规范 ICS 35.020 CCSL60 中华人民共和国国家标准人工智能深度学习框架多硬件平台适配技术规范 adaptiontomulti-hardwareplatform 2024-11-28发布 2024-11-28实施国家市场监督管理总局国家标准化管理委员会发布目次前言 Ⅲ 1 范围 1 2 规范性引用文件 1 3 术语和定义 1 4 缩略语 2 5 环境要求 2 5.1 概述 2 5.2 训练框架与硬件平台适配环境要求 2 5.3 推理框架与硬件平台适配环境要求 3 6 适配接口要求 3 6.1 概述 3 6.2 训练场景适配接口要求 4 6.3 推理场景适配接口要求 8 7 功能要求 10 7.1 训练场景适配功能要求 10 7.2 推理场景适配功能要求 10 8 测试方法 11 8.1 环境测试方法 11 8.2 接口测试方法 11 8.3 功能测试方法 12 附录A(资料性) 训练基础模型及评价指标 13 附录B(资料性) 推理模型及评价指标 14 参考文献 15 前言本文件按照GB/T 1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。本文件起草单位:中国电子技术标准化研究院、北京百度网讯科技有限公司、浪潮电子信息产业股份有限公司、深圳云天励飞技术股份有限公司、上海壁仞科技股份有限公司、中国科学院软件研究所、上海燧原科技股份有限公司、北京智芯微电子科技有限公司、浙江大华技术股份有限公司、上海商汤智能科技有限公司、南京南瑞瑞腾科技有限责任公司、平头哥(上海)半导体技术有限公司、上海天数智芯半导体有限公司、上海市人工智能行业协会、龙芯中科(合肥)技术有限公司、上海计算机软件技术开发中心、青岛海信电子技术服务有限公司、杭州海康威视数字技术股份有限公司、中国铁建股份有限公司、中铁第五勘察设计院集团有限公司、广电运通集团股份有限公司、北京航天自动控制研究所、中国移动通信集团有限公司、南方电网人工智能科技有限公司、西南科技大学、美的集团(上海)有限公司、罗克佳华科技集团股份有限公司、北京大学、天津(滨海)人工智能创新中心、中国南方电网有限责任公司、上海文鳐信息科技有限公司、北京声智科技有限公司、北京大学长沙计算与数字经济研究院、北京电子数智科技有限责任公司。本文件主要起草人:徐洋、马艳军、马骋昊、吴韶华、董建、高铁柱、王志芳、丁瑞全、胡晓光、杨雨泽、董乾、王思善、刘勇、孔维生、张行程、石超、高慧、余雪松、赵春昊、鲍薇、马珊珊、李斌斌、张强、陈文捷、刘微、彭剑峰、李栋、郑中、郭振华、黄宇恒、王丽娜、秦日臻、梁寿愚、孟令中、俞文心、方贵明、蔡亚森、李玮、何源宏、杨超、田涛、林志达、林克全、芮子文、陈孝良、吴岳。人工智能深度学习框架多硬件平台适配技术规范 1 范围本文件规定了在训练和推理场景下,深度学习框架适配多硬件平台的技术要求,描述了相应的测试方法。本文件适用于支持训练和推理功能的深度学习框架与多硬件平台完成适配,以及深度学习框架与硬件的适配效果评价,也适用于指导人工智能软硬件适配过程。注:本文件不涉及硬件平台的技术要求。 2 规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 41867 信息技术人工智能术语 3 术语和定义 GB/T 41867界定的以及下列术语和定义适用于本文件。 3.1 实现对人工智能算法开发、封装、数据调用以及计算资源使用的软件库。 3.2 多硬件平台 multi-hardwareplatform 包含多种人工智能加速处理器的可提供人工智能计算能力的硬件系统。 3.3 深度学习框架可将多硬件平台作为计算资源完成深度学习模型训练与推理任务的活动。 3.4 计算图 computationalgraph 用来表示数学函数,由节点和连接构成的有向图。注1:节点表示数学运算,即算子。注2:连接表示数学运算之间的依赖关系。注3:一个连接联通起始节点和终止节点。 [来源:ISO/IEC/IEEE24765:2017,3.1762.1,有修改] 3.5 整图 graph 用于描述某个深度学习特定任务的计算过程,由一系列算子和张量组成的完整的计算图。 3.6 子图 subgraph 将整图依据某种规则抽取得到的特定部分。 3.7 张量 tensor 由同一类型元素所组成的多维数组。注:包括标量(0维)、向量(1维)、矩阵(2维)以及更高维的数组。 3.8 算子 operator 函数的名字,或表示行动的数学或逻辑符号。注:算子由硬件定义,由软件封装。 [来源:ISO/IEC TR17903:2024,3.18,有修改] 3.9 向深度学习框架提交算子信息以实现新增算子的接口。注:提交的内容包括算子名、输入、输出、属性等信息。 3.10 接收不同框架的计算图结构,通过计算图、多层中间表示等结构转化,自动生成硬件平台可执行指令的工具。 4 缩略语下列缩略语适用于本文件。 DNN:深度神经网络(DeepNeuralNetwork) 5 环境要求 5.1 概述深度学习框架适配多硬件平台是指以深度学习框架为基础,从训练和推理两个方面适配不同组合的硬件平台。硬件平台环境由操作系统、服务器端的训练芯片、服务器端推理芯片、移动端推理芯片和边缘端推理芯片组成。 5.2 训练框架与硬件平台适配环境要求 5.2.1 训练框架环境训练框架环境符合以下要求: a) 训练框架:应具备基础单机单卡、单机多卡与多机多卡的模型训练方式; b) 版本:深度学习框架与硬件AI加速库版本应是尚在维护中的版本,宜支持最新稳定版。 5.2.2 训练框架适配的硬件平台环境训练框架适配的硬件平台环境符合以下要求: a) 操作系统:应支持基于Linux内核的操作系统; b) 芯片类型:应支持通用人工智能训练芯片,以及至少一款支持训练的人工智能加速芯片; c) 设备识别:硬件驱动应支持在选定操作系统上安装/卸载,设备可正确识别,宜支持容器映射; d) 分析监控:硬件宜提供设备的状态监控工具与性能分析工具,用于检测设备健康状态。 5.3 推理框架与硬件平台适配环境要求 5.3.1 云侧推理框架与端侧推理框架环境云侧推理框架与端侧推理框架环境符合以下要求: a) 推理框架:应具备基础模型推理功能; b) 版本:深度学习框架与硬件AI加速库版本应是尚在维护中的版本,宜支持最新稳定版。 5.3.2 云侧推理框架适配的硬件平台环境云侧推理框架适配的硬件平台环境应符合5.2.2的规定。 5.3.3 端侧推理框架适配的硬件平台环境端侧推理框架所适配的硬件平台环境符合以下要求: a) 操作系统:应支持智能终端操作系统和嵌入式操作系统中的一种; b) 芯片类型:应支持通用人工智能推理芯片,以及至少一款支持推理的人工智能加速芯片; c) 设备识别:硬件驱动应支持在选定操作系统上安装/卸载,设备可正确识别,宜支持容器映射; d) 分析监控:硬件宜提供设备的状态监控工具和性能分析工具,用于检测设备健康状态。 6 适配接口要求 6.1 概述在训练和推理过程中,深度学习框架通过多个接口适配硬件平台的软件栈,完成软硬件平台的互通,深度学习框架多硬件平台适配接口(见图1)包括设备管理模块接口、计算执行模块接口和分布式通信模块接口三个部分,其中面向云测和端侧的推理过程,分布式通信模块接口不做必选要求。图1 深度学习框架多硬件平台适配接口适配接口与图1中接口对应,具体接口功能包括如下。 a) 设备管理模块接口:图1接口a(训练侧定义见6.2.1,推理侧定义见6.3.1),对硬件平台驱动与运行时的接入接口进行抽象与封装,并向计算执行模块、训练与推理框架提供一致的设备管理模块功能。设备管理模块接口主要包括设备管理接口、内存管理接口、执行流管理接口和事件管理接口,允许各硬件自行实现相应设备管理接口接入框架。 b) 计算执行模块接口:实现深度学习框架算子与目标硬件算子内核函数的映射与匹配,针对不同硬件类型规范不同的适配接口。计算执行模块接口提供算子开发或映射、子图或整图接入、编译器后端接入3种适配接口,硬件平台根据环境类型选择接口: 1) 算子开发或映射:见图1接口b(训练侧定义见6.2.2.1,推理侧定义见6.3.2.1),若硬件支持可编程算子内核开发语言,或硬件具备对应的AI算子库,则选择该方式接入; 2) 子图或整图接入:见图1接口c(训练侧定义见6.2.2.2,推理侧定义见6.3.2.2),若硬件支持图引擎,则选择该方式进行子图或整图接入; 3) 神经网络编译器:见图1接口d(训练侧定义见6.2.2.3,推理侧定义见6.3.2.3),若硬件支持编译器后端,或硬件支持代码生成器,则选择该方式进行神经网络编译器的算子接入。 c) 分布式通信模块接口:见图1接口e(训练侧定义见6.2.3,推理侧定义见6.3.3),对硬件平台集合通信库接入框架的接口进行封装与抽象,为上层框架提供一致的分布式通信模块接口,硬件自行实现相应接口接入框架。 6.2 训练场景适配接口要求 6.2.1 设备管理模块接口 6.2.1.1 设备管理接口设备管理接口定义见表1。表1 设备管理接口接口名称英文名称必选/可选接口说明获取设备名称 get_device_name 可选获取设备名称获取设备型号 get_device_type 可选获取设备型号获取驱动版本号 get_driver_version 可选获取驱动版本号获取运行时版本号 get_runtime_version 可选获取运行时版本号指定任务运行使用的设备 set_device 必选后续任务执行在该指定设备上获取当前使用的设备ID get_device 必选获取当前任务使用的硬件设备ID 设备同步等待 synchronize_device 必选阻塞程序直到设备上所有任务完成获取可用设备数量 get_device_count 必选获取当前可用设备数量获取可用设备列表 get_device_list 可选获取当前可用设备号列表获取设备算力 get_compute_capability 可选获取设备算力初始化硬件 initialize 可选初始化硬件后端去初始化硬件 finalize 可选去初始化硬件后端初始化设备 init_device 可选初始化指定硬件设备去初始化设备 deinit_device 可选去初始化指定硬件设备 6.2.1.2 内存管理接口内存管理的接口定义见表2。表2 内存管理接口接口名称英文名称必选/可选接口说明申请设备内存 device_memory_alocate 可选申请设备内存释放设备内存 device_memory_dealocate 可选释放设备内存申请主机锁页内存 host_memory_alocate 可选申请主机锁页内存释放主机锁页内存 host_memory_dealocate 可选释放主机锁页内存申请统一地址内存 unified_memory_alocate 可选申请统一地址内存释放统一地址内存 unified_memory_dealocate 可选释放统一地址内存主机到设备同步内存拷贝 memory_copy_h2d 可选主机到设备同步内存拷贝设备到主机同步内存拷贝 memory_copy_d2h 可选设备到主机同步内存拷贝设备内同步内存拷贝 memory_copy_d2d 可选设备内同步内存拷贝设备间同步内存拷贝 memory_copy_p2p 可选设备间同步内存拷贝主机到设备异步内存拷贝 async_memory_copy_h2d 可选主机到设备异步内存拷贝设备到主机异步内存拷贝 async_memory_copy_d2h 可选设备到主机异步内存拷贝设备内异步内存拷贝 async_memory_copy_d2d 可选设备内异步内存拷贝设备间异步内存拷贝 async_memory_copy_p2p 可选设备间异步内存拷贝设备内存填充 device_memory_set 可选使用值填充某块设备内存查询设备内存状态 device_memory_stats 可选设备内存使用情况查询获取设备内存最小块大小 device_min_chunk_size 可选获取设备内存最小块大小获取设备内存最大块大小 device_max_chunk_size 可选获取设备内存最大块大小设备最多可分配内存大小 device_max_aloc_size 可选设备最多可分配内存大小分配设备内存的填充字节 device_extra_padding_size 可选分配设备内存的填充字节设备初始分配的内存大小 device_init_aloc_size 可选设备初始分配的内存大小设备重分配的内存大小 device_realoc_size 可选设备重分配的内存大小 6.2.1.3 执行流管理接口执行流管理的接口定义见表3。表3 执行流管理接口接口名称英文名称必选/可选接口说明创建设备执行流 create_stream 可选创建设备执行流销毁设备执行流 destroy_stream 可选销毁设备执行流查询设备执行流信息 query_stream 可选查询设备执行流信息表3 执行流管理接口 (续) 接口名称英文名称必选/可选接口说明同步设备执行流 synchronize_stream 可选等待执行流所有任务完成添加主机回调函数 stream_add_calback 可选添加主机回调函数等待执行流某个事件完成 stream_wait_event 可选等待执行流某个事件完成 6.2.1.4 事件管理接口事件管理的接口见表4。表4 事件管理接口接口名称英文名称必选/可选接口说明创建设备事件对象 create_event 必选创建设备事件对象销毁设备事件对象 destroy_event 必选销毁设备事件对象设备执行流上记录事件 record_event 必选设备执行流上记录某事件查询事件是否完成 query_event 可选查询该设备事件是否完成同步设备事件 synchronize_event 必选阻塞直到该设备事件完成 6.2.2 计算执行模块 6.2.2.1 算子注册接口深度学习框架应提供硬件算子的内核函数注册接口,供目标硬件进行内核函数或DNN算子库的接入,见表5。表5 硬件算子注册接口项目内容接口名称算子内核函数注册建议英文名称 REGISTER_KERNEL 接口功能说明注册框架算子的内核函数接口输入参数见表6 接口输出参数无(void) 硬件算子注册接口所需的输入参数见表6。表6 硬件算子注册接口输入参数参数名称输入/输出类型数据类型必选/可选参数说明算子名称输入参数字符串必选框架算子名称硬件名称输入参数字符串必选硬件后端名称表6 硬件算子注册接口输入参数 (续) 参数名称输入/输出类型数据类型必选/可选参数说明布局类型输入参数枚举可选输入张量的数据布局类型内核函数输入参数函数必选硬件算子内核函数数据类型输入参数枚举必选算子支持的输入张量的数据类型 6.2.2.2 子图或整图接入接口深度学习框架应提供整图或子图接入接口,由硬件平台的图引擎自行接管计算图的组网与执行并返回计算结果,见表7。表7 图生成与执行接口接口名称英文名称必选/可选接口说明初始化图引擎 graph_engine_initialize 可选初始化图引擎对象去初始化图引擎 graph_engine_finalize 可选去初始化图引擎对象图生成 graph_engine_generate 必选模型计算图生成图执行 graph_engine_execute 必选模型计算图执行申请设备内存 device_alocate 可选申请设备内存释放设备内存 device_dealocate 可选释放设备内存 6.2.2.3 神经网络编译器接口在硬件支持编译器后端或硬件支持代码生成器的情况下,可采用神经网络编译器来实现适配。硬件设备生产方为其硬件提供编译器后端,通过编译器将框架侧的计算图模型根据特定硬件目标产生编译器端的低层中间表示,然后根据硬件后端再转化为某个具体硬件上的可执行代码。编译器可由深度学习框架实现,也可采用第三方编译器接入。采用神经网络编译器进行适配,神经网络编译器后端接入接口规范应满足如下的要求。 a) 若深度学习框架支持神经网络编译器后端接入,则训练框架应提供框架计算图转化为编译器高层中间表示接口,见表8。表8 框架计算图转化编译器高层中间表示的接口接口名称英文名称必选/可选接口说明编译器高层中间表示构建 high_level_ir_compile 可选根据框架计算图,构建编译器高层中间表示 b) 在硬件厂商对接的后端,编译器应提供从高层中间表示的接口转化为低层中间表示的接口,见表9。表9 框编译器高层中间表示转为低层中间表示的接口接口名称英文名称必选/可选接口说明编译器高层中间转为低层中间表示接口 lower_ir 可选根据编译器高层中间表示,转化和构建低层中间表示 c) 在编译器后端底层,硬件厂商应根据各自不同的接入方式,对接编译器低层中间表示,生成相应硬件指令。接入方式包含代码生成(Codegen),算子库接入、子图计算库接入、硬件方自己设计的IR接入等,硬件厂商根据自己硬件的支持的方式选择其中一种接入。 6.2.3 分布式通信模块接口深度学习训练框架应提供分布式通信模块接口供硬件平台的集合通信库接入,支持框架大规模分布式训练功能,分布式通信模块接口定义见表10。表10 分布式通信模块接口接口名称英文名称必选/可选接口说明生成通信ID编号 xccl_get_unique_id 可选生成通信ID编号获取通信ID的数据量大小 xccl_get_unique_id_size 可选获取通信ID的数据量大小生成集合通信对象 xccl_comm_init_rank 可选生成集合通信对象销毁集合通信对象 xccl_destroy_comm 可选销毁集合通信对象全量聚合累加通信 xccl_al_reduce 可选全量聚合累加通信广播通信 xccl_broadcast 可选广播通信累加通信 xccl_reduce 可选累加通信聚合通信 xccl_al_gather 可选聚合通信累加分发通信 xccl_reduce_scatter 可选累加分发通信通信组合起始 xccl_group_start 可选通信组合起始通信组合结束 xccl_group_end 可选通信组合结束点对点发送 xccl_send 可选点对点发送点对点接收 xccl_recv 可选点对点接收获取集合通信版本 xccl_get_version 可选获取集合通信版本获取当前通信域序号 xccl_get_comm_rank 可选获取当前通信域序号获取当前通信域大小 xccl_get_comm_size 可选获取当前通信域大小同步进程组内的所有进程 xccl_barrier 可选同步进程组内的所有进程切分重聚合通信 xccl_altoal 可选切分后重聚合分发 6.3 推理场景适配接口要求 6.3.1 设备管理模块接口推理侧设备管理模块接口应符合6.2.1的规定。 6.3.2 计算执行模块接口 6.3.2.1 算子开发或映射接口推理侧算子开发或映射接口应符合6.2.2.1的规定。 6.3.2.2 子图或整图接入接口深度学习推理框架宜提供子图检测、融合和执行的能力,通过硬件抽象层接口,将框架层的图的中间表示转化为硬件厂商软件层的图的中间表示,并调用厂商接口生成硬件可执行模型后在目标硬件上执行。 a) 子图检测、融合和执行接口包括:子图检测接口、子图编译、执行接口。 1) 子图检测接口:根据硬件支持的算子,通过检测符合条件的所有子图,并将符合条件的子图进行融合,实现将全图切分、融合生成若干子图。 2) ......

英文网页English: GB/T 45079-2024

相关标准: GB/T 38665.1 | GB/T 32910.6 | GB/T 11460 | GB/T 38665.1 |