| 标准编号 | GB/T 35589-2017 (GB/T35589-2017) | | 中文名称 | 信息技术 大数据 技术参考模型 | | 英文名称 | Information technology -- Big data -- Technical reference model | | 行业 | 国家标准 (推荐) | | 中标分类 | L67 | | 国际标准分类 | 35.240.70 | | 字数估计 | 10,183 | | 发布日期 | 2017-12-29 | | 实施日期 | 2018-07-01 | | 标准依据 | 国家标准公告2017年第32号 | | 发布机构 | 中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会 |
GB/T 35589-2017
Information technology -- Big data -- Technical reference model
ICS 35.240.70
L67
中华人民共和国国家标准
信息技术 大数据 技术参考模型
2017-12-29发布
2018-07-01实施
中华人民共和国国家质量监督检验检疫总局
中国国家标准化管理委员会发布
目次
前言 Ⅰ
1 范围 1
2 规范性引用文件 1
3 术语和定义 1
4 缩略语 2
5 大数据参考架构的目的和目标 2
6 大数据参考架构概述 2
7 大数据参考架构的组成 4
7.1 系统协调者 4
7.2 数据提供者 4
7.3 大数据应用提供者 4
7.3.1 概述 4
7.3.2 收集 4
7.3.3 预处理 4
7.3.4 分析 4
7.3.5 可视化 4
7.3.6 访问 4
7.4 大数据框架提供者 5
7.4.1 概述 5
7.4.2 基础设施 5
7.4.3 平台 5
7.4.4 处理框架 5
7.4.5 信息交互/通信 5
7.4.6 资源管理 5
7.5 数据消费者 5
7.6 安全和隐私 5
7.7 管理 6
前言
本标准按照GB/T 1.1-2009给出的规则起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。
本标准起草单位:中国电子技术标准化研究院、浪潮软件集团有限公司、华为技术有限公司、成都勤
智数码科技股份有限公司、中国互联网络信息中心、国家信息中心、同方股份有限公司、中标软件有限公
司、清华大学、山东中创软件商用中间件股份有限公司、浪潮电子信息产业股份有限公司、闪联信息技术
工程中心有限公司、华东师范大学、北京世纪互联宽带数据中心有限公司、北京亚信智慧数据科技有限
公司、北京大学、中国人民大学、中兴通讯股份有限公司、北京百分点信息科技有限公司。
本标准主要起草人:梅宏、高林、代红、吴东亚、杜小勇、车品觉、吴建明、赵菁华、陈海、张群、卫凤林、
赵俊峰、黄先芝、王建华、杨莉莉、傅玉生、孔宁、吕欣、吴晨、董军平、吴吉庆、王朝坤、王建民、何忠胜、
苏志远、吴楠、赵江、张维华、吴永和、周行健、陈利仓、李冰、曹昊嘉、王静、徐洋、张展新、李易昂、符海芳、
朱松、刘宇峰、吴志刚、张安文、王东、胡选来。
信息技术 大数据 技术参考模型
1 范围
本标准描述了大数据的参考架构,包括角色、活动和功能组件以及它们之间的关系。
本标准适用于对大数据复杂操作的理解,可为大数据系列标准的制定提供基础。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 35295 信息技术 大数据 术语
3 术语和定义
GB/T 35295界定的以及下列术语和定义适用于本文件。
3.1
一种用作工具以便于对大数据内在的要求、设计结构和运行进行开放性探讨的高层概念模型。
注:比较普遍认同的大数据参考架构一般包含系统协调者、数据提供者、大数据应用提供者、大数据框架提供者和
数据消费者等5个逻辑功能构件。
3.2
系统协调者 systemorchestrator
大数据参考架构中的一种逻辑功能构件,定义所需的数据应用活动并将它们整合到可运行的垂直
系统中。
注:系统协调者可以是人、软件或这二者。
3.3
数据提供者 dataprovider
大数据参考架构中的一种逻辑功能构件,将新的数据或信息引入大数据系统。
3.4
大数据参考架构中的一种逻辑功能构件,执行数据生命周期操作,以满足系统协调者定义的需求以
及安全和隐私保护需求。
3.5
大数据参考架构中的一种逻辑功能构件,建立一种计算框架,在此框架中执行转换应用,同时保护
数据完整性和隐私。
3.6
数据消费者 dataconsumer
大数据参考架构中的一种逻辑功能构件,是使用大数据应用提供者提供的应用的末端用户或其他
系统。
3.7
数据科学家 datascientist
数据科学专业人员;他们具有足够的业务需求管理机制方面的知识、领域知识、分析技能以及用于
管理数据生命周期中每个阶段的端到端数据过程的软件和系统工程知识。
4 缩略语
下列缩略语适用于本文件。
5 大数据参考架构的目的和目标
本标准中的BDRA提供了一个体系架构,用于有效描述大数据角色、活动和功能组件。
BDRA目的包括:
---为各种利益相关者提供一种交流大数据技术的通用语言;
---鼓励大数据实践者遵守通用标准、规范和模式;
---为解决相似的问题集提供一致的技术实现方法。
BDRA的目的是为了方便对大数据复杂性操作的认识。它不代表一个特定的大数据系统的系统
架构;相反,它是一种工具,使用通用的架构来描述、讨论和开发特定系统的架构。
BDRA是一个通用的大数据系统概念模型,对于讨论大数据需求、结构和操作,它是一种有效的工
具。该模型不依赖于任何特定的产品和服务供应商,也不定义规范的解决方案。
BDRA支持以下标准化目标:
---在一个与供应商和技术无关的大数据高层概念模型语境下,增进对大数据构件、处理过程及系
统的理解;
---为政府部门、相关机构和其他用户在理解、讨论、分类和比较大数据解决方案的过程中提供技
术参考;
---促进对大数据互操作性、可移植性、可重用性和可扩展性的备选标准的分析。
6 大数据参考架构概述
本标准定义的BDRA为大数据标准化提供了基本参考点,为大数据系统的基本概念和原理提供了
一个总体架构,见图1。
BDRA围绕代表大数据价值链的两个维度组织展开:信息价值链(水平轴)和信息技术价值链(垂
直轴)。信息价值链表现大数据作为一种数据科学方法对从数据到知识的处理过程中所实现的信息流
价值。信息价值链的核心价值通过数据收集、预处理、分析、可视化和访问等活动实现。信息技术价值
链表现大数据作为一种新兴的数据应用范式对信息技术产生的新需求所带来的价值。信息技术价值链
的核心价值通过为大数据应用提供存放和运行大数据的网络、基础设施、平台、应用工具以及其他信息
技术服务实现。大数据应用提供者位于两个价值链的交叉点上,大数据分析及其实现为两个价值链上
的大数据利益相关者提供特定价值。
BDRA提供了一个构件层级分类体系,用于描述BDRA中的逻辑构件以及定义逻辑构件的分类。
BDRA中的逻辑构件被划分为3个层级,从高到低依次为角色、活动和组件。最顶层级的逻辑构件是代
表大数据系统中存在的5个角色,包括系统协调者、数据提供者、大数据应用提供者、大数据框架提供
者、数据消费者5个角色。另外两个非常重要的逻辑构件是安全和隐私以及管理,它们为大数据系统的
5个角色提供服务和功能。第二层级的逻辑构件是每个角色执行的活动。第三层级的逻辑构件是执行
每个活动需要的功能组件。
该架构可以用于表示由多个大数据系统组成的堆叠式或链式系统,其中一个系统的数据消费者可
以作为后面一个系统的数据提供者。
该架构持各种商业环境,包括紧密集成的企业系统和松散耦合的垂直行业,有助于理解大数据系统
如何补充并有别于已有的分析、商业智能、数据库等传统的数据应用系统。
7 大数据参考架构的组成
7.1 系统协调者
系统协调者职责在于规范和集成各类所需的数据应用活动,以构建一个可运行的垂直系统。
系统协调者具体功能包括:配置和管理BDRA中其他组件执行一个或多个工作负载,以确保各工
作项能正常运行。负责为其他组件分配对应的物理或虚拟节点并对各组件的运行情况进行监控,并通
过动态调配资源等方式来确保各组件的服务质量水平达到所需要求。
系统协调者的功能可由管理员、软件或二者的组合以集中式或分布式的形式实现。
7.2 数据提供者
数据提供者的职责是将数据和信息引入到大数据系统中,供大数据系统发现、访问和转换。
其具体活动包括:
---收集、固化数据。
---创建描述数据源的元数据。
---发布信息的可用性和访问方法。
---确保数据传输质量。
数据提供者和大数据应用提供者的接口涉及3个阶段:开始、数据传输和终止。
7.3 大数据应用提供者
7.3.1 概述
大数据应用提供者的职责是通过在数据生命周期中执行的一组特定操作,来满足由系统协调者规
定的要求,以及安全性、隐私性要求。
大数据应用提供者包括收集、预处理、分析、可视化和访问5个活动。
7.3.2 收集
负责处理与数据提供者的接口和数据引入。
7.3.3 预处理
包括数据验证、清洗、标准化、格式化和存储。
7.3.4 分析
基于数据科学家的需求或垂直应用的需求,确定处理数据的算法来产生新的分析,解决技术目标,
从而实现从数据中提取知识的技术。
7.3.5 可视化
提供给最终的数据消费者处理中的数据元素和呈现分析功能的输出。
7.3.6 访问
与可视化和分析功能交互,响应应用程序请求,通过使用处理和平台框架来检索数据,并响应数据
消费者请求。
7.4 大数据框架提供者
7.4.1 概述
大数据框架提供者的职责是为大数据应用提供者在创建具体应用时提供使用的资源和服务。
大数据框架提供者包括基础设施、平台、处理框架、信息交互/通信和资源管理5个活动。
7.4.2 基础设施
为大数据系统中的所有其他要素提供必要的资源,这些资源是由一些物理资源的组合构成,这些物
理资源可以控制/支持相似的虚拟资源。这些资源分为下面几类:
---网络:从一个资源向另一个资源传输数据的资源。
---计算:用于执行和保持其他组件的软件的实际处理器和存储器。
---存储:大数据系统中保存数据的资源。
---环境:在建立大数据实例的时候必须考虑的物理厂房资源(电力、制冷等)。
7.4.3 平台
包含逻辑数据的组织和分布,支持文件系统方式存储和索引存储方法:
---文件系统:实施某种级别的POSIX标准以获取权限,进行相关的文件操作。
---索引存储:无需扫描整个数据集,便可以迅速定位数据的具体要素。
7.4.4 处理框架
提供必要的基础设施软件以支持实现应用程序能够满足数据数量、速度和多样性的处理。包括批
处理、流处理,以及两者的数据交换与数据操作。
7.4.5 信息交互/通信
包含点对点传输和存储转发两种通信模型。在点对点传输模型中,发送者通过信道直接将所传输
的信息发送给接收者;而在后者中,发送者会将信息先发送给中间实体,然后中间实体再逐条转发给接
收者。点对点传输模型还包括多播这种特殊的通信模式,在多播中,一个发送者可将信息发送给多个而
不是一个接收者。
7.4.6 资源管理
计算、存储及实现两者互联互通的网络连接管理。主要目标是实现分布式的、弹性的资源调配,具
体包括对存储资源的管理和对计算资源的管理。
7.5 数据消费者
通过调用大数据应用提供者提供的接口按需访问信息,与其产生可视的,事后可查的交互。
7.6 安全和隐私
在安全和隐私管理模块,通过不同的技术手段和安全措施,构建大数据平台安全防护体系,实现覆
盖硬件、软件和上层应用的安全保护,从网络安全、主机安全、应用安全、数据安全四个方面来保证大数
据平台的安全性:
---网络安全:通过网络安全技术,保证数据处理、存储安全和维护正常运行。
---主机安全:通过对集群内节点的操作系统安全加固等手段保证节点正常运行。
---应用安全:具有身份鉴别和认证、用户和权限管理、数据库加固、用户口令管理、审计控制等安
全措施,实施合法用户合理访问资源的安全策略。
---数据安全:从集群容灾、备份、数据完整性、数据分角色存储、数据访问控制等方面保证用户数
据的安全。
同时应提供一个合理的灾备框架,提升灾备恢复能力,实现数据的实时异地容灾功能,跨数据中心
数据备份。
隐私保护主要是在......
|