| 标准编号 | GB/T 35295-2017 (GB/T35295-2017) | | 中文名称 | 信息技术 大数据 术语 | | 英文名称 | Information technology -- Big data -- Terminology | | 行业 | 国家标准 (推荐) | | 中标分类 | L70 | | 国际标准分类 | 35.020; 35.240.01 | | 字数估计 | 18,192 | | 发布日期 | 2017-12-29 | | 实施日期 | 2018-07-01 | | 标准依据 | 国家标准公告2017年第32号 | | 发布机构 | 中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会 |
GB/T 35295-2017
Information technology -- Big data -- Terminology
ICS 35.020;35.240.01
L70
中华人民共和国国家标准
信息技术 大数据 术语
2017-12-29发布
2018-07-01实施
中华人民共和国国家质量监督检验检疫总局
中国国家标准化管理委员会发布
目次
前言 Ⅰ
1 范围 1
2 术语和定义 1
2.1 大数据及其应用领域术语 1
2.2 密切相关的通用术语 8
参考文献 10
索引 11
信息技术 大数据 术语
1 范围
本标准界定了信息技术大数据领域中的常用术语和定义。
本标准适用于大数据领域的科研、教学和应用。
2 术语和定义
2.1 大数据及其应用领域术语
2.1.1
大数据 bigdata
具有体量巨大、来源多样、生成极快、且多变等特征并且难以用传统数据体系结构有效处理的包含
大量数据集的数据。
注:国际上,大数据的4个特征普遍不加修饰地直接用volume、variety、velocity和variability予以表述,并分别赋
予了它们在大数据语境下的定义:
a) 体量 volume:构成大数据的数据集的规模。
b) 多样性 variety:数据可能来自多个数据仓库、数据领域或多种数据类型。
c) 速度 velocity:单位时间的数据流量。
d) 多变性 variability:大数据其他特征,即体量、速度和多样性等特征都处于多变状态。
2.1.2
数据生存周期 datalifecycle
将原始数据转化为可用于行动的知识的一组过程。
2.1.3
一种用作工具以便于对大数据内在的要求、设计结构和运行进行开放性探讨的高层概念模型。
注:比较普遍认同的大数据参考体系结构一般包含系统协调者、数据提供者、大数据应用提供者、大数据框架提供
者和数据消费者等5个逻辑功能构件。
2.1.4
系统协调者 systemorchestrator
大数据参考体系结构中的一种逻辑功能构件,它定义所需的数据应用活动并将它们整合到可运行
的垂直系统中。
注1:系统协调者可以是人、软件或这二者。
注2:系统协调者一般包括:业务领导者、咨询师、数据科学家、信息体系结构设计师、软件体系结构设计师、安全体
系结构设计师、个人信息保护体系结构设计师和网络体系结构设计师。
2.1.5
数据提供者 dataprovider
大数据参考体系结构中的一种逻辑功能构件,它将新的数据或信息引入大数据系统。
注:数据提供者一般包括:企业、公共机构、科学家、调研人员、从事数据搜索的工程师、网络应用软件、网络运营商
和末端用户。
2.1.6
大数据参考体系结构中的一种逻辑功能构件,它执行数据生存周期操作,以满足系统协调者定义的
需求以及安全和隐私保护需求。
注:大数据应用提供者一般包括:应用领域专家、平台领域专家和咨询师。
2.1.7
大数据参考体系结构中的一种逻辑功能构件,它建立一种计算框架,在此框架中执行转换应用,同
时保护数据完整性和隐私。
注:大数据框架提供者一般包括:内嵌数据集集群、数据中心和云提供者。
2.1.8
数据消费者 dataconsumer
大数据参考体系结构中的一种逻辑功能构件,它是使用大数据应用提供者提供的应用的末端用户
或其他系统。
注:数据消费者一般包括:末端用户、调研人员、应用和系统。
2.1.9
由网络、计算、存储和环境等功能构件构成的一种集合。
注1:网络、计算、存储和环境的解释如下:
a) 网络:支持将数据从一个资源传输到另一个资源的资源(如,已定义的物理资源、软件资源、虚拟资源
等)。
b) 计算:执行和驻留其他大数据系统构件(如,物理资源、操作系统、虚拟实现、逻辑分布)的软件的物理处
理器和存储器。
c) 存储:在大数据系统中保存数据的资源(如,存储器、本地磁盘、独立磁盘的软/硬件冗余阵列、存储域网、
附网存储)。
d) 环境:建立大数据系统时必须考虑的物理辅助资源(如,供电、冷却等)。
注2:这是大数据框架提供者可能提供的一种框架。
2.1.10
用于指导实现结合相关应用编程接口(API)访问的逻辑数据组织和分发的集合。
注1:此类框架一般还包含数据注册和连同语义数据描述(如格式化本体或分类)的元数据服务。逻辑数据组织的
覆盖范围从简单限定的平面文件到完全分布式关系数据存储或分栏数据存储。
注2:这是大数据框架提供者可能提供的一种框架。
2.1.11
处理框架 processingframework
覆盖为支持大数据应用实现所需基础设施软件的、定义数据的计算和处理的集合。
注:这是大数据框架提供者可能提供的一种框架。
2.1.12
源于高性能计算环境、为水平扩展集群中节点之间的可靠查询、传输和接收数据提供API的集合。
注:这是大数据框架提供者可能提供的一种框架。
2.1.13
大数据框架提供者可能提供的、利用数据本地化作为一种输入变量来确定是否安装新的处理框架
元素(如,主节点、处理节点、作业位置),从而实现对CPU和存储两大资源高效且有效管理的集合。
注:这是大数据框架提供者可能提供的一种框架。
2.1.14
大数据系统 bigdatasystem
实现大数据参考体系结构的全部或部分功能的系统。
2.1.15
大数据服务 bigdataservice
基于大数据参考体系结构提供的数据服务。
2.1.16
垂直扩展 verticalscaling
为提高性能而提高处理速度、存储和内存等系统参数的过程。
2.1.17
水平扩展 horizontalscaling
将集成的一群个体资源作为一个单系统使用的过程。
2.1.18
大数据范例 bigdataparadigm
一种由水平耦合分布式数据系统和独立资源组成的、用于实现为有效处理众多数据集所必需的可
伸缩性的知识。
2.1.19
大数据工程化 bigdataengineering
为适应大数据对于有效存储、操作和分析的需求而运用治理独立资源的先进技术构建可伸缩数据
系统的过程。
2.1.20
多个处理器并行工作以执行一个特定计算任务的过程。
2.1.21
多个结构化数据集分布在一个或多个服务器集群的各个计算节点的文件系统。
注:此类系统中,数据可能分布在文件和/或数据集层,更为普遍的是在数据块这个层级分布,同时支持集群中多个
节点与大型文件和/或数据集的不同部分交互。
2.1.22
分布式计算 distributedcomputing
一种覆盖存储层和处理层的、用于实现多类型程序设计算法模型的计算模式。
注:分布式计算结果通常加载到分析环境。MapReduce是数据分布式计算中默认的处理构件。
2.1.23
分散-聚集 scatter-gather
大数据集的处理形式,其中所需的计算被划分并分布在集群的多个节点上,整体结果由每个节点的
结果合并而成。
注:分散-聚集通常要求对处理软件的算法进行改变。
示例:MapReduce(包含 Map和Reduce两个计算过程的一种计算模型)就是采用分散-聚集的处理形式。
2.1.24
流数据 streamingdata
经由接口传递,从连续运行的数据源产生的数据。
2.1.25
非结构化数据 unstructureddata
不具有预定义模型或未以预定义方式组织的数据。
2.1.26
用于描述大数据的“数据-信息-知识-价值”生存周期和指导大数据相关活动的模型;这些活动
主要由收集、准备、分析和行动等阶段覆盖。
注:几个阶段的主要活动如下:
a) 收集阶段:采集原始数据并按原始数据形式存储;
b) 准备阶段:将原始数据转化为干净的、有组织的信息;
c) 分析阶段:利用有组织的信息产生合成的知识;
d) 行动阶段:运用合成的知识为组织生成价值。
2.1.27
读时模式 schema-on-read
一种数据模式应用;按此应用,在从数据库读取数据之前,先经过诸如转换、净化、整合之类准备
步骤。
2.1.28
使计算移动到数据所在位置的能力。
2.1.29
真实性 veracity
数据在跨边界传送的情况下,与数据完整性和隐私保护相关的一种数据特征;亦简单指数据的准
确性。
2.1.30
价值 value
从分析学角度考虑的数据对组织的重要性。
注:大数据应用领域越来越看重大数据带来的价值,确定数据的价值也趋向于作为大数据分析的一个重要目标。
2.1.31
波动性 volatility
数据结构随时间变化的趋势。
注:这个术语与大数据主要特征之一的“多变性(variability)”不同,多变性主要用于表述大数据的体量、速度和多
样性等特征呈现的多变性。
2.1.32
正确性 validity
就数据预期用途而言的数据适当性。
2.1.33
数据的收集、准备和分析(预警)在动态改变中发生,并可能在数据存储之前进行归纳或聚合。
2.1.34
大数据卷系统 bigdatavolumesystem
在数据准备阶段前以数据原始形式存储的一种数据系统。
注:在这种系统中,在数据读出时开始启动准备阶段,因此被称为“读时模式”。
2.1.35
数据仓库 datawarehouse
在数据准备之后用于永久性存储数据的数据库。
2.1.36
动态数据 datainmotion
处于活动状态,其典型特征表现为大数据的速度和多变性特征的数据。
注:它们在网络上传输或暂时驻留于计算机内存中供读取或更新。对它们以实时或近实时方式进行处理和分析。
2.1.37
静态数据 dataatrest
处于静止状态,其典型特征表现为大数据的体量和多样性特征的数据。
注:它们通常是存储于物理媒体中的数据。
2.1.38
非关系模型 non-relationalmodels
用于数据存储和处理、不遵循关系代数的逻辑数据模型。
注:非关系模型也常称为NoSQL,通常理解为非SQL(结构化查询语言)或不仅是SQL。
2.1.39
一种元数据库管理系统,它透明地将多个自治数据库系统映射到一个单一联合数据库。
2.1.40
数据科学 datascience
根据原始数据,经过整个数据生存周期过程凭借经验合成可用于行动的知识的一种科学。
2.1.41
数据科学范例 datascienceparadigm
通过发现、假设和假设测试过程直接从数据萃取的可用于行动的知识。
2.1.42
数据科学家 datascientist
数据科学专业人员:他们具有足够的业务需求管理机制方面的知识、领域知识、分析技能以及用于
管理数据生存周期中每个阶段的端到端数据过程的软件和系统工程知识。
2.1.43
数据治理 datagovernance
对数据进行处置、格式化和规范化的过程。
注1:数据治理是数据和数据系统管理的基本要素。
注2:数据治理涉及数据全生存周期管理,无论数据是处于静态、动态、未完成状态还是交易状态。
2.1.44
开放数据 opendata
可为其他数据使用的数据。
2.1.45
链接数据 linkeddata
连接其他数据的数据。
2.1.46
数据集 dataset
数据记录汇聚的数据形式。
注:它可以具有大数据的体量、速度、多样性和易变性特征。数据集的特征表征的是数据本身或静态数据,而数据
的特征,当其在网络上传输时或暂时驻留于计算机存储器中以备读出或更新时,表征的是动态数据。
2.1.47
追溯 provenance
对数据集的历史元数据的讨论。
注1:此词条的中文名是对同一个英文名词的动词性定义的表示。
注2:这是大数据分析中的一个必不可少的因素。
2.1.48
分析 analytics
根据信息合成知识的过程。
2.1.49
用以表征大数据分析过程的发现、开发和应用。
“发现”是形成最初的假设性构想,“开发”是针对具体构想构建分析过程,“应用”则是将分析结果打
包到特定运行的系统。
2.1.50
共享磁盘文件系统 shared-diskfilesystems
使用单一存储池且与多个计算资源关联的存储数据的方法。
注:此类系统的技术实现支持同时从多个节点访问许多大型数据集。
示例1:
示例2:
2.1.51
从不同粗细粒度表征数据特征的数据层次结构。
注:大数据的特征层级一般包括以下层级:
---数据元素;
---记录(数据元素的汇集);
---数据集(记录的汇集);
---多数据集(数据集的汇集)。
2.1.52
数据存储器之间动态数据的处理形式。
注:主要用于数据的过滤、转换或路由选择。对于大数据流,流处理往往是可伸缩的,以便支持分布式处理和流水
线式处理。
2.1.53
可伸缩数据存储 scalabledatastores
用以支持应对数据存储无限增长的一种存储技术。
注:此类技术的运用往往伴之以容错能力,以便应对大数据系统构件的某些失效。
2.1.54
本体 ontology
在大数据语境下,它是一些约束后续各种不同层次逻辑模型的语义模型。
注:本体,从本质上看,既可以是非常概括性的,也可以是极其专门化的。
2.1.55
分类 taxonomies
在数据分析语境下表示关于数据元素关系的元数据。
注:它是实体之间的层次关系,在这种情况下,一个数据元素被分解为较小的组成部分。
2.1.56
图解模型 graphicalmodel
一种可以呈现数据元素之间关系的大数据记录存储类型。
注:在此种模型中,数据元素是节点,关系表现为节点之间链接。
2.1.57
复杂性 complexity
在大数据语境下,复杂性是指各数据元素之间内部关系的或跨数据记录之间的一种互动关系繁简
程度。
2.1.58
资源协商 resourcenegotiation
一种支持多租户以及要求高可用性和低延迟的环境的资源访问模式。
注:按此模式,资源管理器是若干节点管理器的集线器;各个客户(或用户)依次请求节点管理器中的应用管理器,
紧接前一个请求者的后一个请求者分配到同一个或不同的节点管理器的应用管理器。根据中央处理器
(CPU)和存储器可用情况为所请求的任务确定先后次序并在节点提供适当的处理资源。
2.1.59
集群管理 clustermanagement
在以非关系模型方式驻留数据的集群资源之间提供通信的一种机制。
2.1.60
利用软件来确定存储器的动态层级分配的一种存储管理技术。
注:此类技术可以以较低的存储开销来维护必要的数据检索性能,常用于内存、高速缓存、固态硬盘、网络驱动等应
用领域。
2.1.61
支持作为大数据关键实现的网络资源高效且有效管理的一种技术。
注:亦称虚拟网络(virtualnetwork),与传统的用于数据、管理、I/O(输入/输出)和控制的专用物理网络链接不同,
SDN包含资源池化的链接和实际交换设施,实施特定功能和特定应用的按需分配(包括传输的原始带宽、服务
质量和数据路由等)。
2.1.62
对路由器/路由选择、周界防护、远程访问鉴别以及网络流量/载荷监控等网络功能的虚拟应用
实现。
注:网络功能虚拟化支持信息系统的高弹性、容错和资源管理,是应对大数据巨大数据体量下用户数据连接的峰、
谷起伏问题的至关重要的应用。
2.1.63
本地虚拟化 nativevirtualization
大数据环境下的一种虚拟化基本形式,按此种形式,在本地裸机上运行管理程序,该程序管理由操
作系统和应用组成的多个虚拟机。
2.1.64
主机虚拟化 hostedvirtualization
大数据环境下的一种虚拟化基本形式,按此种形式,在本地裸机上运行操作系统,在驻留客户操作
系统和应用的顶层运行管理程序。
2.1.65
大数据环境下的一种虚拟化基本形式,按此种形式,在本地裸机上运行操作系统,管理程序功能嵌
入操作系统中,应用在内部各个容器中运行,控制或限制对操作系统和物理机器资源的访问。
2.2 密切相关的通用术语
2.2.1
数据 data
信息的可再解释的形式化表示,以适用于通信、解释或处理。
注:可以通过人工或自动手段处理数据。
[GB/T 5271.1-2000,定义01.01.02]
2.2.2
数据处理 dataprocessing
数据操作的系统执行。
注:术语“数据处理”不能用作“信息处理”的同义词。
[GB/T 5271.1-2000,定义01.01.06]
2.2.3
数据管理 datamanagement
在数据处理系统中,提供对数据的访问,执行或监视数据的存储,以及控制输入输出操作等功能。
[GB/T 5271.1-2000,定义01.08.02]
2.2.4
关系模型 relationalmodel
结构基于一组关系的数据模型。
示例:结构查询语言(SQL)即表示这样一种模型。
[GB/T 5271.17-2010,定义17.04.04]
2.2.5
关系数据库 relationaldatabase
数据按关系模型来组织的数据库。
[GB/T 5271.17-2010,定义17.04.05]
2.2.6
将操作分散到计算机网络的各结点进行的数据处理。
注:DDP需要借助各结点之间的数据通信做到集体协作。
[GB/T 5271.18-2008,定义18.01.08]
2.2.7
元数据 metadata
关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数
据易变性的数据。
[GB/T 5271.17-2010,定义17.06.05]
2.2.8
语义元数据 semanticmetadata
元数据的一个类型;给出有助于恰当理解数据元素的定义性描述的元数据,或,作为数据元素的定
义的一类元数据。
2.2.9
数据挖掘 datamining
从大量的数据中通过算法搜索隐藏于其中信息的过程。
注:一般通过包括统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等方法来
实现。
[GB/T 33745-2017,定义2.5.3]
2.2.10
云计算 cloudcomputing
一种通过网络将可伸缩、弹性的共享物理和虚拟资源池以按需自服务的方式供应和管理的模式。
注:资源包括服务器、操作系统、网络、软件、应用和存储设备等。
[GB/T 32400-2015,定义3.......
|