标准搜索结果: 'GB/T 45400-2025'
| 标准编号 | GB/T 45400-2025 (GB/T45400-2025) | | 中文名称 | 信息技术 云计算 云超算通用要求 | | 英文名称 | Information technology - Cloud computing - General requirements of HPC in cloud | | 行业 | 国家标准 (推荐) | | 中标分类 | L77 | | 国际标准分类 | 35.100.05 | | 字数估计 | 14,176 | | 发布日期 | 2025-03-28 | | 实施日期 | 10/1/2025 | | 发布机构 | 国家市场监督管理总局、中国国家标准化管理委员会 |
GB/T 45400-2025: 信息技术 云计算 云超算通用要求
ICS 35.100.05
CCSL77
中华人民共和国国家标准
信息技术 云计算 云超算通用要求
2025-03-28发布
2025-10-01实施
国 家 市 场 监 督 管 理 总 局
国 家 标 准 化 管 理 委 员 会 发 布
目次
前言 Ⅲ
引言 Ⅳ
1 范围 1
2 规范性引用文件 1
3 术语和定义 1
4 缩略语 2
5 云超算参考架构 2
6 基础资源要求 3
6.1 计算 3
6.2 存储 3
6.3 网络 4
7 资源管理要求 4
7.1 计算资源管理 4
7.2 存储资源管理 4
7.3 网络资源管理 4
8 数据管理要求 5
8.1 传输管理 5
8.2 数据备份与存储 5
9 运行时软件栈要求 5
10 作业管理与调度要求 5
10.1 作业编辑与提交 5
10.2 作业并行调度 6
10.3 作业弹性伸缩 6
10.4 作业工作流编排 6
11 可视化要求 6
11.1 管理可视化 6
11.2 性能可视化 7
12 运维与监控要求 7
13 安全要求 7
14 API要求 7
参考文献 9
前言
本文件按照GB/T 1.1-2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。
本文件起草单位:阿里云计算有限公司、深圳赛西信息技术有限公司、中国电子技术标准化研究院、
荣联科技集团股份有限公司、中国电子技术标准化研究院华东分院、济南浪潮数据技术有限公司、华为
云计算技术有限公司、江苏博云科技股份有限公司、浪潮云信息技术股份公司、新华三技术有限公司、
北京华胜天成科技股份有限公司、北京百度网讯科技有限公司、腾讯云计算(北京)有限责任公司、广州
市品高软件股份有限公司、天翼云科技有限公司、中移(杭州)信息技术有限公司、中国人民解放军国防
科技大学、中国邮电器材集团有限公司、深圳市奥思网络科技有限公司、湖南智擎科技有限公司、天固信
息安全系统(深圳)有限公司、深圳鼎信通达股份有限公司。
本文件主要起草人:杨广贺、游亮、杨丽蕴、陈行、王向东、张东、吕文文、赵华、张振华、张敏、李萌、
罗森、万晓兰、梁钢、查丽、刘增志、王永霞、陈煜东、邱洋、吴思洪、胡松乔、喻涵、位明扬、史佩昌、杨尚之、
陈志峰、王泽胜、丁天舒、梁力晨、李智琪、高岩、钱涛、朱松、贺荣徽、吴涛、何万青、尹刚、李艳、周扬、
刘文斌、刘虎、徐晔。
引 言
电脑无法处理的大资料量与高速运算需求,在科学研究、仿真计算、工程模型和影视渲染等领域得到广
泛应用。
云超算是一种新型的高性能计算方式,可以解决传统 HPC在使用过程中易遇扩展性不佳、遭遇性
能瓶颈、管理维护难等实际问题。云超算服务是基于 HPC集群、云超算SaaS增值服务和云超算
PaaS商用系统建立的新型业务生态,利用云基础设施向云服务客户提供弹性、可拓展、多租户的高性能
计算服务,满足客户利用云超算服务快速、便捷地构建和管理 HPC集群,运行计算密集型的工作负载
(HPC应用),并根据工作负载增加和缩减所需资源的需求。
通过本文件规范云超算服务的产品能力和建设部署等,有利于促进云超算技术发展和生态建设。
信息技术 云计算 云超算通用要求
1 范围
本文件给出了云超算服务的参考架构,规定了云超算的通用要求。
本文件适用于为云超算服务产品设计、规划、建设、部署和运营等方面提供参考,为第三方机构实施
云超算服务能力评估提供依据。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文
件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于
本文件。
GB/T 32399-2015 信息技术 云计算 参考架构
GB/T 32400-2015 信息技术 云计算 概览与词汇
3 术语和定义
GB/T 32399-2015和GB/T 32400-2015界定的以及下列术语和定义适用于本文件。
3.1
为满足高性能、深度学习或人工智能应用要求而设计、运行、销售和优化的计算系统。
[来源:ISO/IEC 21836:2020,3.1.24]
3.2
云超算 HPCincloud
利用云基础设施提供弹性、可扩展、多租户的高性能计算云服务。
3.3
集群 cluster
一组相互独立的、通过高速网络互联、以单一系统的模式加以管理的计算机。
3.4
作业 job
使用并行计算方法对预先设定的输入数据进行数值求解、获得计算结果的过程。
3.5
云服务器 cloudserver
根据用户需求进行配置、实现快速供应和灵活部署的服务器。
3.6
裸金属服务器 baremetalserver
用于云计算的具备弹性、灵活性、高性能等特点物理服务器。
4 缩略语
下列缩略语适用于本文件。
ACL:访问控制列表(AccessControlLists)
IP:互联网协议(InternetProtocol)
I/O:输入/输出(Input/Output)
NFS:网络文件系统(NetworkFileSystem)
5 云超算参考架构
云超算参考架构见图1,包括基础资源、资源管理、数据管理、运行时软件栈、作业管理与调度、可视
化、运维与监控、安全以及API等。客户可以利用云超算服务快速、便捷地构建和管理 HPC集群,运行
计算密集型的工作负载(HPC应用),并根据工作负载增加和缩减所需资源。
图1 云超算参考架构
6 基础资源要求
6.1 计算
计算基础资源要求包括:
a) 应提供虚拟机;
b) 应提供裸金属服务器;
c) 应支持云服务器性能提升的功能设置,如超线程、非统一内存访问等;
d) 应支持使用异构计算资源,如GPU、CPU、FPGA等;
e) 宜支持使用容器;
f) 应支持使用异构处理器架构,如X86、ARM。
6.2 存储
存储基础资源要求包括:
a) 应提供并行文件系统;
b) 应支持HPC集群直接挂载并行文件系统;
c) 应支持弹性可扩展功能,支持在线扩容,并提供I/O自动负载均衡能力;
d) 应具备故障检测能力,并能自动恢复故障;
e) 宜支持使用对象存储和块存储;
f) 宜具备故障隔离能力,当计算资源故障迁移后,能够使用原有的系统盘和数据盘;
g) 应支持数据冗余保护;
h) 应支持文件管理,包括但不限于配额、用户隔离和ACL等;
i) 宜支持存储加速技术。
6.3 网络
网络基础资源要求包括:
a) 应提供低时延网络,如RDMA;
b) 应支持多用户网络隔离,如VXLAN组网、GRE隧道、VRF隔离等;
c) 应提供网络流量检测、调度等能力;
d) 宜支持使用专线网络;
e) 宜支持网络加速技术;
f) 宜支持高速网络互联技术。
7 资源管理要求
7.1 计算资源管理
计算资源管理要求包括:
a) 应支持并行计算,多机多核并行完成计算作业;
b) 应支持将并行计算的过程数据和结果数据保存到高性能并行文件系统;
c) 应支持多HPC集群管理;
d) 应提供远程登录服务、HPC调度器服务和域账号服务;
e) 应支持对HPC集群计算节点的增加、查询、删除、停机、启动、重启等操作;
f) 应支持磁盘挂载和卸载;
g) 应支持不同的CPU和内存配比;
h) 宜支持同一HPC集群对2种及以上架构的计算处理器的统一管理,如X86、ARM;
i) 应支持在 HPC集群运行过程中新增节点,将新增节点自动加入到 HPC调度器和域账号
服务;
j) 应支持在HPC集群运行过程中删除空闲节点,将被删除节点从 HPC调度器和域账号服务中
自动删除;
k) 宜支持对现有计算资源划分队列,并对队列资源进行配额管理和用户权限管理。
7.2 存储资源管理
存储资源管理要求包括:
a) 应支持并行文件系统的挂载、查询、卸载;
b) 应支持多种文件系统,如NFS、GPFS等;
c) 应支持自动挂载,并指定并行文件系统的挂载路径;
d) 宜支持对象存储和块存储的挂载、查询、卸载能力。
7.3 网络资源管理
网络资源管理应:
a) 提供对公网IP的添加、查询、删除等操作;
b) 支持节点动态绑定和解绑公网IP;
c) 支持HPC集群节点之间高速网络互通。
8 数据管理要求
8.1 传输管理
传输管理要求包括:
a) 应提供HPC作业输入输出文件的远程上传下载和断点续传功能;
b) 应提供远程数据和目录的查询功能;
c) 宜支持协议优化、链路优化或路径探测等海量数据传输加速技术;
d) 宜支持GB 级文件传输加速;
e) 宜支持加速下载非静态和非热点数据。
8.2 数据备份与存储
数据备份与存储要求包括:
a) 应支持数据备份时不占用HPC集群资源;
b) 应支持数据的全量备份;
c) 应支持将原始数据和处理后的数据增量备份;
d) 应支持备份数据恢复;
e) 宜支持数据压缩;
f) 应支持不同存储类型的组合,包括但不限于块存储、并行文件存储、对象存储;
g) 应支持不同存储媒体之间的数据迁移;
h) 应支持不同存储类型之间自动数据迁移;
i) 宜支持基于策略的不同存储类型数据迁移。如访问频次、文件容量等;
j) 应支持对不同类型存储的直接读写;
k) 应支持配置不同数据清理策略,按配置规则清理不需要的数据。
9 运行时软件栈要求
运行时软件栈要求包括:
a) 应提供集成并行计算的基础软件环境,如运行时依赖的数学库、通信库或开发调试工具等;
b) 应在创建HPC集群时提供软件环境自动部署;
c) 应提供按需选择和安装软件包;
d) 应支持根据用户选择的硬件资源提供所需的高性能计算软件支撑环境,如 MPI库、编译库、数
学库、硬件驱动等。
10 作业管理与调度要求
10.1 作业编辑与提交
作业编辑与提交要求包括:
a) 应支持作业前处理,包括但不限于计算模型创建、网格划分和环境条件设置等;
b) 应支持创建多机运行脚本;
c) 应支持批量提交作业;
d) 应支持删除作业,已删除的作业不再占用计算资源;
e) 宜支持图形化作业提交交互界面。
10.2 作业并行调度
作业并行调度要求包括:
a) 应支持 Web方式访问HPC集群;
b) 应支持批量作业调度;
c) 应支持作业运行状态查询,包括但不限于运行、排队、挂起和结束等状态;
d) 应支持多队列调度,每个调度器队列管理不同的计算服务器;
e) 应支持调度器队列创建、删除和查询;
f) 应支持按队列设置不同的作业运行优先级;
g) 应支持按照调度器队列管理HPC集群计算服务器;
h) 应支持动态调整服务器所属的调度器队列;
i) 应支持根据用户可使用的资源配置相应的调度器队列;
j) 应支持多种调度算法;
k) 应支持多种作业类型的混合调度;
l) 宜支持多种作业调度系统。
10.3 作业弹性伸缩
作业弹性伸缩应:
a) 支持调度器作业排队时进行HPC集群规模自动伸缩;
b) 支持根据调度器中排队作业所需硬件资源情况动态地将计算服务器加入到调度器中并执行
作业;
c) 支持作业运行结束后释放调度器中空闲资源;
d) 支持根据不同的队列配置参数进行作业自动伸缩,如最大资源数量、最小资源数量、网络地址
段、服务器硬件配置、服务器计费方式等。
10.4 作业工作流编排
作业工作流编排要求包括:
a) 应支持根据作业执行结果判定是否执行后续作业操作;
b) 宜支持设置作业重试策略,并根据策略进行作业重试。
11 可视化要求
11.1 管理可视化
管理可视化要求包括:
a) 应提供图形界面进行资源管理、数据管理、作业管理、安全管理和运维监控;
b) 应提供图形界面进行作业前处理;
c) 应支持使用图形界面查看作业运行结果;
d) 宜支持图形界面查看作业工作流。
11.2 性能可视化
运行数据可视化应:
a) 支持图表化展示HPC作业运行期间的数据,如硬件性能、进程等;
b) 支持查看 HPC作业运行期间的性能数据,根据作业启动和结束状态的起止时间生成查询
结果;
c) 支持查看 HPC作业运行期间的性能数据,包括但不限于CPU利用率、内存利用率、内存带
宽、网络带宽、磁盘带宽和文件系统带宽等;
d) 支持按性能指标排序;
e) 支持对进程进行性能分析并生成函数级的性能图表。
12 运维与监控要求
运维和监控应:
a) 提供对HPC集群节点进行远程运维和管理能力,如实例生存周期管理、监控告警、日志管
理等;
b) 提供对HPC节点进行监控,如实例运行状态、CPU和内存等资源使用情况、存储I/O、网络
I/O等;
c) 支持故障上报;
d) 支持对HPC集群作业的监控,如用户资源使用情况、计算作业状态等;
e) 支持对用户计算作业计量统计;
f) 支持生成HPC集群运行状态报表,报表内容包括集群计算节点数量、集群作业数量等。
13......
|