路径: 主页 > GY/T > 第5页 > GY/T 339.2-2020
标准搜索结果: 'GY/T 339.2-2020'
| 标准编号 | GY/T 339.2-2020 (GY/T339.2-2020) | | 中文名称 | 有线电视网络大数据技术规范 第2部分:平台要求 | | 英文名称 | (Cable TV Network Big Data Technical Specification - Part 2: Platform Requirements) | | 行业 | 广播电影电视 行业标准 (推荐) | | 字数估计 | 26,250 | | 发布日期 | 2020-12-22 | | 实施日期 | 2020-12-22 | | 标准依据 | 国家广播电视总局公告(2020.12.22) | | 发布机构 | 国家广播电视总局 |
GY/T 339.2-2020: 有线电视网络大数据技术规范 第2部分:平台要求
GY/T 339.2-2020 英文名称: (Cable TV Network Big Data Technical Specification Part 2: Platform Requirements)
中华人民共和国广播电视和网络视听行业标准
有线电视网络大数据技术规范
第 2部分:平台要求
国家广播电视总局 发 布
1 范围
本文件规定了有线电视网络大数据平台的结构和技术要求,还规定了对有线电视网络大数据采集、
接入、存储、处理、分析、展示和开放服务的技术要求。
本文件适用于有线电视网络数据的采集、接入、存储、处理、分析、展示和开放服务,还适用于指
导有线电视网络运营机构开展大数据平台的规划设计、实施、升级改造和运行维护。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T 22239-2019 信息安全技术 网络安全等级保护基本要求
GB/T 35295-2017 信息技术 大数据 术语
GB/T 35589-2017 信息技术 大数据 技术参考模型
GB 50174-2017 数据中心设计规范
GY/T 337-2020 广播电视网络安全等级保护定级指南
GD/J 075-2018 电视收视数据交换接口规范
3 术语和定义
GB/T 35295-2017界定的以及下列术语和定义适用于本文件。
5 概述
大数据平台实现对运营机构经营和系统运行维护过程中产生的各类大数据的采集、接入、处理、存
储、分析、展示、共享和管理,为大数据消费者提供数据和服务,以及为运营机构间的数据交换提供统
一接口。图1采用GB/T 35589-2017中关于大数据参考体系架构的定义,采用角色、活动、组件等逻辑
构件描述有线电视网络大数据平台(以下简称大数据平台或平台)的组成和业务逻辑。关于大数据参考
体系架构,以及角色、活动、组件的描述见附录A。
大数据平台由数据核心子系统、基础资源子系统、安全运行子系统和运行维护子系统组成。数据核
心子系统是大数据平台的核心组成部分,由数据采集接入、数据存储、数据处理、数据分析,数据服务、
资源管理等框架组成,负责实现数据输入、计算处理和输出功能,以及对外开放大数据平台的数据服务
功能。基础资源子系统为大数据平台提供机房、计算资源、存储资源、网络资源等基础服务,安全运行
子系统和运行维护子系统为数据处理提供基本保障。
大数据平台应支持采集、接入、处理运营机构的BSS、OSS、MSS数据,广告、媒资、用户收视行为、
用户体验数据,以及网管、门户网站等数据,具体支持的数据内容如图2所示。上传到大数据平台的数
-2018要求的数据。
6.1.1 基本要求
6.2.3.1 关系数据库
要求如下:
a) 应支持结构化数据存储机制,实现数据存储的可扩展性;
b) 应支持多表关联;
c) 应支持数据存储一致性检查,实现数据的完整性与一致性;
d) 宜支持行列混合存储,支持表按行或列格式组织存储;
e) 宜支持行列转换。
6.2.3.2 列式数据库
要求如下:
a) 应支持以键值形式进行数据存储;
b) 应支持基于表、列族和列的用户权限管理,权限管理操作包括读、写、创建等;
c) 应支持对数据库中的列进行加密;
d) 应支持数据的备份与恢复,包括库级别的备份和恢复,并提供备份恢复进展、历史记录查看等
功能;
e) 宜支持多级索引;
f) 宜支持将多个具有类似功能或存在关联关系的业务表进行合并存储。
6.2.3.3 图数据库
要求如下:
a) 应支持由节点及边组成的数据模型;
b) 应支持图查询、图遍历、图分析、图挖掘等;
c) 应支持主流开发接口;
d) 应支持单节点、多节点多层关系扩线查询,支持广度优先、深度优先、最短路径、最优路径遍
历搜索算法;
e) 宜支持顶点、属性的继承操作;
g) 宜支持长任务异步会话机制。
6.2.4 性能要求
要求如下:
a) 列式数据库存储,实时处理响应时间应小于 1s,一亿条记录的批处理响应时间应小于 10s;
b) 缓存数据库,响应时间应小于 10ms,IO能力应不小于 10000条每秒;
c) 负载均衡切换时间应小于 10s;
d) 存储处理设备 CPU忙时平均利用率宜小于 70%;
e) 存储处理设备内存忙时平均利用率宜小于 80%;
f) 底层存储的冗余保护能力应不低于 RAID“0+1”方式;
g) 恢复备份系统中的数据库时,恢复时长应小于 6h;
h) 备份数据库到备份系统时,每天的备份时间应小于 6h。
6.3 数据处理
6.3.1 基本要求
要求如下:
a) 分布式数据库应支持 CPU、内存、GPU等异构资源调度和配置;
b) 分布式数据库应支持计算框架的水平扩展;
c) 应支持任务优先级调度,能定义不同优先级的任务,使得后启动的高优先级任务能够获取运行
中的低优先级任务释放的资源;
d) 应支持对全局资源的集中管理;
e) 应支持静态资源分配策略和动态资源分配策略;
f) 分布式数据库应提供与组织相匹配的层次结构,应支持多层次的队列资源管理,队列的资源应
严格隔离,队列获得的资源应不超过分配给该队列的上限;
g) 分布式数据库应支持弹性资源与抢占,即当有空闲资源时,租户可以使用超过其配置资源,以
提高系统整体的吞吐量;当系统繁忙,其他租户无法拿到配置应得的资源时,当前租户超过配
置部分的资源可以被其他租户抢占,以保证各租户的服务质量;
h) 分布式数据库应支持资源管理、作业调度和数据加载,以及各种分布式计算框架的调度;
i) 分布式数据库宜支持按照任务间的依赖关系自动调度任务,以提高处理系统的自动化程度;
j) 分布式数据库宜支持根据作业需求动态分配计算资源,自动管理回收资源;
k) 分布式数据库宜支持自动完成作业调度,并支持作业内多任务以无回路有向图形式描述的依赖
关系;
l) 分布式数据库宜支持复杂任务的调度,如支持深度学习的训练、MPI任务。
6.3.2 批处理
要求如下:
a) 应支持多种数据类型的离线分析,包括结构化、半结构化、非结构化数据;
b) 应支持离线计算任务进度与状态的实时上报;
c) 应支持多节点离线任务联动执行;
d) 应支持多种语言分析任务的开发接口;
e) 应支持作业调度;
f) 应支持分散-聚集的处理方式;
g) 应支持作为一个批处理计算框架运行在分布式资源管理之上。
6.3.3 流处理
要求如下:
a) 应支持从数据源中获得实时消息数据,完成高吞吐、低延迟的实时计算,并将结果输出到消息
队列或者进行持久化;
b) 应支持对消息处理任务进行创建、浏览、中止、激活、去激活等操作,并记录用户级别的操作
到审计日志中;
c) 应支持创建滑动窗口方式的实时分析任务,其时间窗口大小应可调;
d) 应支持通过 SQL或者类 SQL接口对数据进行操作;
e) 应支持容错性,在出现故障时具备容错处理机制。
6.3.4 图计算
要求如下:
a) 应内置图数据查询类 API;
b) 应支持以同步计算模型或异步计算模型的迭代算法;
c) 应支持明细数据全量导入、增量导入以及自定义导入;
d) 应支持内存计算和索引,支持在线图分析和查询;
e) 应支持基于属性图模型的图数据表达,包含结点/边上的标签和属性类型定义;
f) 应支持内置常用图指标计算功能,以描述图的拓扑结构特征;
g) 应支持实现水平扩展的分布式图计算和查询;
h) 应支持图数据的并发查询。
6.3.5 内存计算
要求如下:
a) 应支持基于内存的分布式计算;
b) 应支持水平扩展;
c) 应支持自动负载均衡;
d) 应支持多种数据类型的离线分析,包括结构化数据、半结构化数据、非结构化数据的离线分析;
e) 宜支持高度抽象算子,以快速构建分布式数据处理应用;
f) 宜支持标准 SQL语法;
g) 宜支持与非关系型数据库对接,以在不迁移数据的前提下读取非关系型数据库中的数据并进行
计算。
6.3.6 批流融合计算
要求如下:
a) 应支持批流融合统一查询 SQL语言;
b) 应支持多种场景下的流式 SQL,如位置信息分析等;
c) 应支持机器学习、图计算;
d) 应支持时间窗口算法,包括跳跃窗口、滑动窗口等;
e) 宜支持基于 SQL语言的批、流数据模式识别;
f) 宜提供批流融合计算引擎;
g) 宜支持事件驱动的流处理,以降低处理延迟;
h) 宜支持处理乱序事件流、窗口计算、CEP等;
i) 宜支持迭代处理。
6.3.7 性能要求
要求如下:
a) 批处理集群容量的水平扩展能力应不小于 1000个节点;
b) 在正常情况下,数据处理系统文件系统的 IO请求响应时间应小于 500ms;
c) 在正常情况下,数据处理系统处理消息的响应延迟应小于 500ms。
6.4 数据分析
6.4.1 概述
数据分析过程由数据预处理、支撑能力、分析与挖掘过程、流程编排环节组成。通过数据分析过程,
将数据信息转换为知识。数据分析的基本过程包括:对原始数据进行预处理,加载数据到分析系统,通
过预置的分析工具库,执行检索査询、机器学习、统计分析、可视化等操作。一个完整的数据分析系统,
通常还包括配置管理和任务流程编排功能。
6.4.2 数据预处理
6.4.2.1 数据抽取
要求如下:
a) 应支持按照需求抽取存放在文件系统、数据库中的文件或数据;
b) 对结构化、半结构化、非结构化数据,应支持不同的抽取方法;
c) 应支持全量抽取及增量抽取模式;
d) 应支持主动抽取和被动追加方法;
e) 应支持定时批量抽取;
f) 宜支持分布式数据抽取,数据抽取过程支持负载均衡。
6.4.2.2 数据清洗
要求如下:
a) 应支持检査数据一致性,支持清洗掉不一致的数据;
b) 应支持处理无效值,包括对无效值的删除、修正等;
c) 应支持处理缺失值,包括对缺失值的填充或缺失值对应数据条目的删除等;
d) 应支持处理重复值,包括对重复数据值的合并或删除等;
e) 应支持对比清洗前后的数据,方便使用者检验清洗效果;
f) 宜支持逻辑矛盾和关联性验证,支持清洗不合理的数据。
6.4.2.3 数据转换
要求如下:
a) 应支持对清洗后的数据按照分析模块的要求进行转换操作,支持结构化数据的列转换、行转换
和表转换;
b) 宜支持非结构化数据、半结构化数据的结构化处理;
c) 宜支持对文本、网页类数据的规范化处理,将文档类数据转化成单一规范形式;
d) 宜支持对语音/音频数据的......
|