[PDF] CYT102.2-2020 - 中国标准 英文版
| 标准号码 | 美元 | 购买PDF | 工期 | 标准名称(英文版) |
| CY/T 102.2-2020 | 559 | CY/T 102.2-2020 | <=4 | 新闻出版数字内容对象存储、复用与交换规范 第2部分:对象封装、存储与交换 |
| 基本信息 | |
|---|---|
| 标准编号 | CY/T 102.2-2020 (CY/T102.2-2020) |
| 中文名称 | 新闻出版数字内容对象存储、复用与交换规范 第2部分:对象封装、存储与交换 |
| 英文名称 | (Press and publishing digital content object storage, expansion and exchange specification - Part 2: Object encapsulation, storage and exchange) |
| 行业 | 印刷出版行业标准 (推荐) |
| 中标分类 | A19 |
| 国际标准分类 | 01.140.40 |
| 字数估计 | 24,218 |
| 发布日期 | 2020-11-16 |
| 实施日期 | 2021-02-01 |
| 旧标准 (被替代) | CY/T 102.2-2014 |
| 标准依据 | 国新出发函(2020)249号 |
| 发布机构 | 国家新闻出版署 |
CY/T 102.2-2020: 新闻出版数字内容对象存储、复用与交换规范 第2部分:对象封装、存储与交换
CY/T 102.2-2020 英文名称: (Press and publishing digital content object storage, expansion and exchange specification.Part 2: Object encapsulation, storage and exchange)
中 华 人 民 共 和 国 新 闻 出 版 行 业 标 准
代替 CY/T 102.2-2014
新闻出版数字内容对象存储、复用
与交换规范
第 2 部分:对象封装、存储与交换
国家新闻出版署发布
前言
本文件按照 GB/T 1.1-2020《标准化工作导则 第 1 部分:标准化文件的结构和起草规则》的规定
起草。
本文件是 CY/T 102《新闻出版数字内容对象存储、复用与交换规范》的第 2 部分。CY/T 102 已经
发布了以下部分:
--第 1 部分:对象模型;
--第 2 部分:对象封装、存储和交换;
--第 3 部分:对象一致性检查方法。
本文件代替 CY/T 102.2-2014《数字内容对象存储、复用与交换规范 第 2 部分:对象封装、存储
和交换》,与 CY/T 102.2-2014 相比,除结构调整和编辑性改动外,主要技术变化如下:
a) 修改了本文件的适用范围,由适用于图书单一出版物类型扩展为适用多类型出版物;
b) 修改了数字内容对象的封装方式。CY/T 102.2-2014 中采用 OAI-ORE 资源图文件对符合
PUBO 本体模型的数字内容对象进行封装,本次修订采用“PUBO RDF 实例文档(RDF/XML
文档)”对符合本次修订版 PUBO 本体模型的出版物数字内容对象进行封装;
c) 修改了信息包结构,其内容包括:
1) 将 CY/T 102.2-2014 中 CONTAINER 文件夹下的各级资源图文件及相关文件夹修改为
采用“PUBO RDF 实例文档”进行表示;
2) 修改了清单文件 pubomanifest.xml 的内容,除包含 CY/T 102.2-2014 中媒体文件清
单(dataFileList)之外,新增了对象清单(objectList),用于表示各资源实例作
为主体时,与之相关的客体及语义关系。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由全国新闻出版信息标准化技术委员会(SAC/TC 553)提出并归口。
本文件起草单位:北京大学、中宣部机关服务中心(中宣部信息中心)、北京拓标卓越信息技术研
究院、中国科技出版传媒股份有限公司。
本文件主要起草人:王文清、陈鹏飞、刘成勇、刘勇、张沫、南志弘、陆新民、关涛、张志、姜磊、
郭昱锦。
本文件及其所代替文件的历次版本发布情况为:
--2014 年 1 月首次发布为 CY/T 102.2-2014;
--本次为第一次修订。
引言
随着互联网技术的发展和数字加工与出版相关技术的逐步成熟,传统的新闻出版机构陆续应用信息
技术开展数字出版。在数字加工与出版过程中,图书、期刊等出版内容资源不仅包括可交付印刷或电子
出版与服务的各类媒体对象(如整书或篇章的PDF文件,以及期刊某期及某论文的PDF文件等)、排版或
加工过程中产生的媒体对象(如排版设计源文件等),还包括封面、目次、元数据、各类内容主体、各
类辅文(如参考文献、摘要、术语表等)数字内容实体构件。对于这些出版内容资源,需要建立一个新
闻出版领域统一的数字内容对象模型,以系统地表示和记录资源的内容结构、特征、表现形式、载体方
式以及资源之间的关联关系,并能按不同粒度进行相关数据的封装、存储、复用与交换。
近年来,在出版内容资源的知识表示与建模领域,受应用需求的驱动,国内外相关行业及企业标准
应运而生。2017年11月,《数字内容对象存储、复用与交换规范》系列国家标准的起草工作正式启动;
2020年3月,该系列国家标准正式发布,为出版内容资源本体的建立奠定了模型基础。
以GB/T 38371.1-2020《数字内容对象存储、复用与交换规范 第1部分:对象模型》等3项推荐性
国家标准为基础,结合新闻出版行业出版内容资源的加工及应用要求,本标准的制订需求提上日程。在
本标准的起草过程中,起草组对多项现行国家标准、行业标准及工程标准进行了调研,同时参考了大量
国内外数据标准和模型,从对象模型、对象封装、存储和交换以及对象一致性检查等多个方面给出一套
统一的行业标准,以实现新闻出版领域对出版内容资源的规范化表示,消除数据复用和交换障碍,降低
资源管理和利用成本,推动出版内容资源的融合和深入利用。
新闻出版数字内容对象存储、复用与交换规范
第 2 部分:对象封装、存储与交换
1 范围
本文件规定了出版内容资源对象的封装、存储与交换方式,并给出了对象交换服务接口。
本文件适用于新闻出版行业有关数字内容资源的数字化统一管理和共享。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T 7408-2005 数据元和交换格式 信息交换 日期和时间表示法(ISO 8601:2000,IDT)
GB/T 38371.2-2020 数字内容对象存储、复用与交换规范 第2部分:对象封装、存储与交换
CY/T 102.1-2020 新闻出版数字内容对象存储、复用与交换规范 第1部分:对象模型
CY/T 102.3-2020 新闻出版数字内容对象存储、复用与交换规范 第3部分:对象一致性检查方法
3 术语和定义
GB/T 20000.1界定的以及下列术语和定义适用于本文件。
5 数字内容对象封装
5.1 对象封装方式
5.1.1 容器级封装
容器级封装用以封装出版物数字内容对象及其相关的所有对象信息。
5.1.2 对象级封装
对象级封装用以封装出版物数字内容对象及其所包含的单一媒体对象信息。
5.2 交换信息包文件结构
5.2.1 交换信息包类型
根据交换信息包所封装的资源粒度,可分为容器级交换信息包与对象级交换信息包。
5.2.2 容器级交换信息包结构
容器级交换信息包封装了一个完整的容器级封装所包含的所有信息,其结构如下:
5.3 证实方法
出版物数字内容对象封装的证实方法见CY/T 102.3-2020的5.2。
6 数字内容对象存储
6.1 信息包存储
信息包的存储包括出版物数字内容对象(及其相关资源对象)的实例文件及数据文件的存储。实现
这两类文件的逻辑存储结构即为出版物数字内容对象存档信息包结构。
6.2 实例文件存储
6.2.1 文件系统存储
完整的PUBO RDF实例文件可单独存储于文件系统中。如果文件中涉及媒体对象相关数据文件的具体
存储位置时,该存储位置可是当前PUBO RDF实例文件存储位置的相对路径,也可是其他路径。
6.2.2 关系数据库存储
关系数据库以二维表结构对实例数据进行组织和存储。
将PUBO RDF实例文件存储于关系数据库中时,每个实例作为独立的文本单元,存储于数据库表中。
表结构见表1所示。
6.2.3 图数据库存储
PUBO对象模型具有图特性,当出版物数字内容对象及其相关资源对象的实例文件数据规模较大时,
利用结构化数据模型的传统管理方式难以满足低数据冗余与高查询性能的要求。以图方式管理RDF实例
数据不仅可避免RDF逻辑数据模型与物理模型之间的转换,而且可利用成熟的图算法优化RDF数据查询。
图数据库基于有向图,其理论基础是图论。PUBO RDF实例文件中的主体(及客体)实例对象视为节
点,主体与客体之间的关系(即属性)视为边,可将出版物数字内容对象及其相关资源对象的RDF实例
数据存储到图数据库中。
常见的图数据库存储系统包括:Neo4j、OrientDB、JanusGraph、Amazon Neptune、InfiniteGraph、
6.3 数据文件存储
与PUBO RDF实例文件相关的数据文件存储于dataFile文件目录中,按照不同的媒体类型归类,存储
结构见表3。
6.4 证实方法
出版物数字内容对象存储的证实方法见CY/T 102.3-2020的7.1和7.2。
7 数字内容对象交换
7.1 交换方式
为了支持出版物数字内容对象的交换与复用,数字内容对象应用系统之间可通过FTP/SFTP、接口等
方式进行数字内容对象的交换。
对于FTP/SFTP方式,应用系统之间可直接传送“交换信息包”文件。
对于接口交换方式,资源存储系统可提供以下8个方面的接口,以供第三方(或外部系统)从当前
资源存储系统中获取出版物数字内容对象信息(包括元数据、数据文件等)。相应的交换接口如下所示。
a) 资源标识符获取接口(listIdentifiers):获取符合查询条件的资源标识符列表;
b) 指定资源 IRI 获取接口(listIris):获取符合查询条件的资源容器级封装包含的所有相关资
源的 IRI 列表;
c) 元数据获取接口(getMetadata):获取指定 IRI 的资源的元数据。支持多种元数据格式(如
MARC、DC 等格式);
d) 数据文件 URL 获取接口(listContentURL):获取指定资源所关联的数据文件的 URL 列表;
e) 数据流获取接口(getDataStream):获取数据文件对应的数字内容的字节流;
f) 交换信息包获取接口(getEIP):获取指定资源 IRI 的交换信息包;
g) 交换信息包上传接口(uploadEIP):将交换信息包上传至资源存储系统;
h) 资源检索接口(resRetrieve):在资源存储系统中检索资源信息。
7.2 资源标识符获取接口
7.2.1 资源标识符获取接口定义
资源标识符获取接口(listIdentifiers)定义见表4。
7.2.2 资源标识符获取接口调用
7.2.2.1 正确请求响应
资源标识符获取接口正确请求响应的示例如下:
请求:返回资源更新时间在“2017-12-01”至“2017-12-31”期间的图书ISBN列表
7.2.2.2 错误请求响应
资源标识符获取接口错误请求响应的示例如下:
7.3 指定资源 IRI 获取接口
7.3.1 指定资源 IRI 获取接口定义
指定资源IRI获取接口(listIris)定义见表5。
7.3.2 指定资源 IRI 获取接口调用
指定资源 IRI 获取接口请求响应的示例如下:
7.4 元数据获取接口
7.4.1 元数据获取接口定义
元数据获取接口(getMetadata)定义见表6。
7.4.2 元数据获取接口调用
元数据获取接口请求响应的示例如下:
7.5 数据文件 URL 获取接口
7.5.1 数据文件 URL 获取接口定义
数据文件URL获取接口(listContentURL)定义见表7。
7.5.2 数据......