路径: 主页 > GB/T > 第229页 > GB/T 37722-2019
| 标准编号 | GB/T 37722-2019 (GB/T37722-2019) | | 中文名称 | 信息技术 大数据存储与处理系统功能要求 | | 英文名称 | Information technology - Technical requirements for big data storage and processing systems | | 行业 | 国家标准 (推荐) | | 中标分类 | L67 | | 国际标准分类 | 35.240 | | 字数估计 | 10,133 | | 发布日期 | 2019-08-30 | | 实施日期 | 2020-03-01 | | 发布机构 | 国家市场监督管理总局、中国国家标准化管理委员会 |
GB/T 37722-2019: 信息技术 大数据存储与处理系统功能要求
GB/T 37722-2019 英文名称: Information technology -- Technical requirements for big data storage and processing systems
1 范围
本标准规定了大数据存储与处理系统的分布式文件存储、分布式结构化数据存储、分布式列式数据
存储、分布式图数据存储、批处理框架、流处理框架、图计算框架、内存计算框架和批流融合计算框架等的功能要求。
本标准适用于大数据存储与处理系统的设计、开发和应用部署。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 35295-2017 信息技术 大数据 术语
3 术语和定义
GB/T 35295-2017界定的以及下列术语和定义适用于本文件。
3.1
图数据库
一种应用图理论存储实体及其之间关系信息的非关系型数据库。
注1:图数据库的数据模型由节点及边组成(即节点间关系)。
注2:图数据库支持图查询、图遍历及图分析等功能,适用于复杂关系的探索与发现。
3.2
批处理
将一个大型作业分解成为多个任务交由多个节点分别处理,再将分解后多个任务处理的结果汇总
起来,得出最终的分析结果的计算框架,具备高可用、高扩展、高并发等能力。
3.3
流处理
能够对具有实时、高速、无边界、瞬时性等特性的流式数据进行实时处理的计算能力。
3.4
图计算
以“图论”为基础的对数据的一种“图”结构的抽象表达,以及在这种数据结构上的计算模式。
注:在图计算中,基本的数据结构表达包括:节点、边、权重等。
3.5
内存计算
优先使用内存对数据进行计算、分析的一种数据处理技术。
3.6
批流融合计算
能够同时支持批处理和流处理的计算能力。
3.7
分散-聚集
大数据集的处理形式,其中所需的计算被划分并分布在多个节点上,整体结果由每个节点的结果合
并而成。
3.8
租户
对一组物理和虚拟资源进行共享访问的一个或多个云服务用户。
4 缩略语
下列缩略语适用于本文件。
API:应用程序编程接口
CEP:复杂事件处理
CPU:中央处理器
DAG:有向无环图
GPU:图形处理器
MPI:消息传递接口
SQL:结构化查询语言
TCP:传输控制协议
5 概述
大数据存储与处理系统由大数据存储子系统和大数据处理子系统构成,总体框架见图1。其中:
a) 大数据存储子系统:提供大数据的分布式存储管理,涵盖多种存储方式,包括分布式文件存储、
分布式结构化数据存储、分布式列式数据存储、分布式图数据存储;
b) 大数据处理子系统:提供结构化、非结构化及半结构化数据的处理,涉及多种计算/处理框架,
包括批处理框架、流处理框架、图计算框架、内存计算框架、批流融合计算框架。
图1 大数据存储与处理系统总体框架
6 大数据存储子系统功能要求
6.1 基本要求
大数据存储模块的基本要求如下:
a) 应支持数据上传、数据下载、目录查看、目录创建、目录删除、权限修改等操作;
b) 应支持标准、开放的数据访问API对数据进行操作;
c) 应提供数据加载工具的功能,满足大数据存储与处理系统和传统关系型数据库、其他文件系统
之间交换数据和文件;
d) 应具备关键节点(部件)高可用性设计与要求;
e) 宜提供数据自动备份和手动备份的功能;
f) 宜支持数据批量更新、删除等数据管理功能;
g) 宜支持流式的实时数据入库,支持实时查询。
6.2 分布式文件存储
分布式文件存储要求如下:
a) 应提供文件的上传、下载、读写、复制、移动、删除、访问控制等功能;
b) 应提供文件的容错机制和系统的高可用机制,包括数据块的备份、系统快速恢复等功能;
c) 应提供文件数据的校验和同步功能,保证数据的完整性与一致性;
d) 应提供分布式的弹性扩展功能,支持动态添加以及删除节点;
e) 应提供存储数据的压缩和加解密功能;
f) 应提供快速检索功能,支持数据资源的统一检索、编目、增加和删除操作;
g) 应提供文件的搜索、批量操作、回收站、快照等功能;
h) 宜提供小文件打包成大文件集中存储的功能;
i) 宜提供存储配额功能,能够基于目录的存储空间及文件数量进行配额控制。
6.3 分布式结构化数据存储
分布式结构化数据存储要求如下:
a) 应提供结构化数据的分布式存储机制,实现数据存储的可扩展性;
b) 应提供API接口实现数据的各类查询操作;
c) 应提供多表关联功能;
d) 应支持数据分布式存储的一致性;
e) 宜支持行列混合存储,支持表按行或列格式组织存储;
f) 宜支持行列转换。
6.4 分布式列式数据存储
分布式列式数据存储要求如下:
a) 应提供数据以键值形式进行存储的功能;
b) 应提供基于表、列族和列的用户权限管理功能,权限管理操作包括读、写、创建等;
c) 应提供按照用户需要对数据库中的数据进行列加密的功能;
d) 应提供数据备份与恢复功能,包括库级别的备份和恢复、备份恢复进展/历史记录查看等功能;
e) 宜提供多级索引功能。
6.5 分布式图数据存储
分布式图数据存储要求如下:
a) 应支持由节点及边组成(即节点间关系)的数据模型;
b) 应提供图查询、图遍历及图分析功能;
c) 应支持主流图数据库开发接口;
d) 应支持单节点、多节点多层关系的扩线查询;
e) 应支持最短路径、最优路径遍历搜索;
f) 宜支持顶点、属性的继承操作。
7 大数据处理子系统功能要求
7.1 基本要求
大数据处理模块的基本要求如下:
a) 应支持CPU、内存、GPU等异构资源调度和配置;
b) 应支持计算框架的水平扩展;
c) 应支持对任务设置优先级,并按任务优先级对资源进行调度;
d) 应支持对全局资源的集中管理;
e) 应支持静态资源分配策略和动态资源分配策略;
f) 应提供匹配组织的层次结构,支持多层次的队列资源管理;队列的资源实现严格的隔离,即不
超过分配给该队列的资源上限;
g) 应支持资源的弹性与抢占,即有空闲资源时,租户可使用超过其配置的资源;系统繁忙时,如其
他租户资源未达到原始配置要求,则可抢占本租户超过配置部分的资源;
h) 应支持资源管理、作业调度和数据加载及各种分布式计算框架调度;
i) 宜支持按照任务间依赖关系自动调度任务,提高处理系统的自动化程度;
j) 宜支持根据作业需求动态分配计算资源,自动管理回收资源;
k) 宜支持自动完成作业调度,并支持作业内多任务以无回路有向图形式描述的依赖关系;
l) 宜支持对复杂任务的调度能......
|