搜索结果: CYT101.4-2014
| 标准编号 | CY/T 101.4-2014 (CY/T101.4-2014) | | 中文名称 | 新闻出版内容资源加工规范 第4部分:数据加工质量 | | 英文名称 | Specification of content resource processing in press and publication. Part 4: Data processing quality | | 行业 | 印刷出版行业标准 (推荐) | | 中标分类 | L70 | | 国际标准分类 | 35.240.30 | | 字数估计 | 12,17 | | 发布日期 | 1/29/2014 | | 实施日期 | 1/29/2014 | | 引用标准 | GB/T 16159; GB/T 5271.14 | | 标准依据 | 新广出发2014[11]号 | | 发布机构 | 国家新闻出版署 | | 范围 | 本部分规定了新闻出版内容资源数字化加工的数据质量结构和要求、质量准确性评定和质量检测报告等方面的要求。本部分适用于新闻出版内容资源的数字化加工及电子资源的制作和应用。 |
CY/T 101.4-2014: 新闻出版内容资源加工规范 第4部分:数据加工质量
CY/T 101.4-2014 英文名称: Specification of content resource processing in press and publication. Part 4: Data processing quality
新闻出版内容资源加工规范
第 4部分:数据加工质量
11 范围
CY/T 101 的本部分规定了新闻出版内容资源数字化加工的数据质量结构和要求、质量准确性评定
和质量检测报告等方面的要求。
本部分适用于新闻出版内容资源的数字化加工及电子资源的制作和应用。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。
凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
3 术语和定义
GB/T 5271.14 和 CY/T 101.1-2014 中所界定的以及下列术语和定义适用于本文件。
3.1
资料 materials
新闻出版的印刷品、存档胶片或原始排版数据的统称。
3.2
成品数据 finished data
已经完成全部数据处理过程且符合预先设定的规格和质量要求,可实现交付的最终数据形态。
3.3
差错 error
误差算出的、观察的或测量的值或状况,规定的或理论上正确的值或状况之间的差异。
3.4
版式文件 fixed-layout document
版式文档排版后生成的,包含版面固化呈现需要的全部数据的一种文件。
3.5
流式文件 reflowing document
流式文档按照内容逻辑顺序,内容呈现可适应终端设备屏幕或窗口变化的一种文件。
3.6
图像版式文件通过扫描方式,生成与原加工对象版式完全一致的图像文件集合,并打包成独立完整的可浏览的
数字版式文件(含书签信息及书签信息和版式文件页面之间的链接关系)。
3.7
双层矢量化版式文件 vectorized dual-layer fixed-layout document
双层版式文件在单层图像版式文件基础上,同时生成与图像层对应的透明字体模式的文字层,可支持选取、拷
贝和查找的版式文件。
3.8
单层矢量化版式文件 vectorized fixed-layout document
矢量版式文件按照原加工对象的文字位置,文字采用矢量字,修饰性图片、艺术字、底纹、线条、图表和公式
等以图像形式显示的版式文件。
4 数据质量结构和要求
4.1 数据质量结构
数据质量应包含数据的完整性、规范性、有效性和准确性,如图 1 所示。
图 1 数据质量结构
4.2 质量评定基本流程
评定成品数据的完整性、规范性和有效性,在这 3 个方面均符合质量要求后,再评定成品数据的准确性。
4.3 完整性
4.3.1 类型完整
成品数据的类型应与数据加工目标的要求保持一致,不允许出现缺漏和错误。
4.3.2 内容完整
成品数据的内容范围与数量应与数据加工目标的要求保持一致,不允许出现缺漏和乱序等错误。
4.3.3 质量管理文档完整
完整的成品数据质量管理文档应包括:
a) 质量检测方案;
b) 质量检测报告。
34.4 规范性
4.4.1 数据格式
成品数据的数据格式应与数据加工的要求保持一致,通常采用如下格式:
a) 长期保存图像使用无损压缩 TIFF 格式;
b) 一般发布应用图像使用 JPEG 格式;
c) 内容结构化文档采用 XML1.0 及以上版本,结构化规范描述文件采用 XSD1.0 及以上版本;
d) 版式文档采用 PDF 等格式;
e) 流式文档采用 Epub 等格式。
4.4.2 数据文件命名
成品数据的命名应与数据加工要求一致,命名方式由唯一 ID 信息与数据类型的类别信息构成。
4.4.3 数据存储
成品数据的存储应以与数据加工的要求保持一致,通常以加工对象基本单位为存储文件夹,其下
分类存储此加工对象的各类成品数据。图书按本存储,报纸和期刊按期存储。
4.5 有效性
成品数据应能通过相关软件及系统读出,不允许出现数据损坏、异常报错、无法打开等错误。读
出的数据应完整,不允许出现编码混乱、图像失真等无法使用的错误。
4.6 准确性
成品数据的质量准确性应与数据加工的要求保持一致,包括:
a) 文字准确性;
b) 图像准确性;
c) 内容结构化准确性;
d) 版式文件准确性;
e) 流式文件准确性。
5 质量准确性评定
5.1 质量准确性评定原则
5.1.1 基本原则
数据质量判定依据应建立在数据加工所使用的资料基础之上,即原资料中存在的错误、缺漏、顺
序颠倒等质量问题在数据加工时未纠正,不计入数据加工质量错误。
5.2 评定方法
数据加工要求中应明确不同类型成品数据的差错率指标,并采用抽样检测等方式进行质量准确性
评定。对于实际差错率不高于成品数据差错率指标的,视为符合质量准确性目标,反之则不符合。
5.3 差错率计算
检测标准单位一般按千、万、十万取值。差错率的计算公式为:
5.4 检测抽样范围
抽样检测范围应不低于检测标准单位的 20 倍。
5.5 质量准确性要求和错误统计方法
5.5.1 文字准确性
5.5.1.1 文字准确性要求
采用内容索引级、全文标准级、版式重构级(全文基础级加工的双层版式文件不包括在内)、版
式复杂级等加工方式生成的包含文字内容的成品数据,其文字质量评定标准单位为 10000 个字符,质
量应符合相关出版质量管理规定。
5.5.1.2 文字差错统计方法
差错率统计方法包括:
a) 文字差错的计算方法如下 :
1) 封底、版权页、正文、目录、出版说明(或凡例)、前言(或序)、后记(或跋),注释、 索引、
图表、附录、参考文献等中的一般性错字、别字、多字、漏字、倒字,每处按 1 个差错计数;
2) 重复出现同一错字,每页按 1 个差错计数,全书最多按 4 个差错计数。多、漏 1 ~ 5 个字,
每处按 1 个差错计数,5 个字以上按 4 个差错计数;
3) 封一、扉页上的文字差错,每处按 2个差错计数;相关文字不一致,有一项计 1个差错;外文、
少数民族文字、国际音标,以单词为单位,无论错误出现几处,均按 1 个差错计数。
4) 汉语拼音不符合相关规定的,以一个对应的汉字或词组为单位,每处按 1 个差错计数;
5) 简化字、繁体字混用,每处按 0.5个差错计数;同一差错在全书超过 3处,按 1.5个差错计数;
内容本身需要的或原纸质图书简繁混用的不计差错。
b) 标点符号和其他符号的计算方法如下 :
1) 标点符号的一般错用、漏用、多用,每处按 0.1 个差错计数;
2) 小数点误为中圆点,或中圆点误为小数点的,以及冒号误为比号,或比号误为冒号的,每处按 0.1 个差错计数;
3) 破折号误为一字线、半字线,每处按 0.1个差错计数。标点符号误在行首、行末的,每处按 0.1个差错计数;
4) 法定计量单位符号、科学技术各学科中的科学符号、乐谱符号等差错,每处按0.5个差错计数;
同样差错同一面内不重复计算,全书最多计 1.5 个差错。
c) 同一位置的文字差错在元数据集、内容结构化数据、版式文件和流式文件等不同成品数据
中重复出现的,统一按 1 处差错计数。
5.5.2 图像准确性
5.5.2.1 图像准确性要求
图像质量评定标准单位为 1000 页,图像差错率要求在千分之一以下。
5.5.2.2 图像差错统计方法
以页面为基本检测单位,页面中出现任何一种或几种错误均按 1 个差错计数,差错类型包括:
a) 文件格式错误、图像分辨率错误、色彩模式错误、压缩算法错误等规格类错误;
b) 图像尺寸与原版不一致;
c) 颜色失真、图像过浓或过淡;
d) 水平倾斜大于 0.5 度;
e) 文件损坏。
5.5.3 内容结构化准确性
5.5.3.1 内容结构化准确性要求
内容结构化质量评定标准单位为 10000 个字符,内容结构化差错率要求在万分之三以下。
5.5.3.2 内容结构化差错统计方法
内容未标引、标引错误、结构化名称错误、结构化层级错误等每处按 1 个差错计数;
5.5.4 关联关系准确性
5.5.4.1 关联关系准确性要求
关联关系质量评定标准单位为 1000 个链接点,差错率要求在千分之三以下。
5.5.4.2 关联关系差错统计方法
关联关系缺失或指向错误即为差错,一处关联关系错误按 1 个差错计数,关联关系包括:
5a) 目次与正文章节的链接关系;
b) 目次的层级关系;
c) 脚注引用点与脚注的引用关系;
d) 插图引用点与插图的引用关系;
e) 表格引用点与表格的引用关系;
f) 参考文献引用点与参考文献的引用关系;
g) 图像引用点与图像文件的链接关系。
5.5.5 版式文件准确性
5.5.5.1 版式文件准确性要求
版式文件质量评定标准单位为 10000 个字符 , 差错率要求在万分之三以下(图像版式文件除外)。
5.5.5.2 版式文件差错统计方法
版式文件差错计算方法如下:
a) 矢量版式文件与原版排版方式上不一致的错误,每出现一处按 1 个差错计数,差错包括:
1) 文字对位错误:单个或单行文字与其他文字不平行;
2) 排版格式错误:段落、文字或图片位置等不符合要求;
3) 字体信息错误:字体、字号、加粗、倾斜、颜色、底色、上下脚标等不符合要求;
4) 行外信息错误:注音、着重符等不符合要求。
b) 双层版式文件中文字层与图像层偏差超过当前文字 1/3 个字符大小的按 0.2 个差错计数,单行
文字最多按 1 个差错计数。
5.5.6 流式文件准确性
5.5.6.1 流式文件准确性要求
流式文件质量评定标准单位为 10000 个字符,差错率要求在万分之三以下。
5.5.6.2 流式文件差错统计方法
重排后与原......
|