搜索结果: ZYF001-2018
| 标准编号 | ZYF 001-2018 (ZYF001-2018) | | 中文名称 | 语料库通用技术规范 | | 英文名称 | General specifications for corpora | | 行业 | Chinese Industry Standard | | 中标分类 | A14 | | 国际标准分类 | 01.040 | | 字数估计 | 18,188 | | 发布日期 | 2018 | | 实施日期 | 2019-01-01 |
ZYF 001-2018
General specifications for corpora
语料库通用技术规范
中国语言服务行业规范
Specifications for the Language Service Industry in China
2018-11-19发布
2019-01-01实施
中国翻译协会发布
Issuedby: Translators Association of China
目次
前言...Ⅲ
引言...Ⅳ
1 范围...1
2 规范性引用文件...1
3 术语和定义...1
4 建设与加工...4
4.1 语料库建设流程...4
4.2 语料库设计...5
4.3 语料采集...5
4.4 语料预处理...5
4.5 语料标注...5
4.6 语料对齐...6
4.7 语料库生成...6
5 管理与维护...6
6 交易与共享...6
6.1 语料的分类...6
6.2 语料库的分类...6
6.3 语料库描述...7
6.4 语料库评价...8
6.5 语料库的价格与交付...9
附录A (资料性附录) 双语平行语料参考评价标准...11
参考文献...13
前言
本规范按照GB/T 1.1-2009给出的规则起草。
本规范由中国翻译协会提出并归口。
本规范起草单位:上海交通大学、北京大学、北京外国语大学、中国人民解放军外国语学院、同济大
学、东南大学、南京师范大学、浙江大学、浙江财经大学、中国社会科学研究院、中国标准化研究院、中译
语通科技股份有限公司、阿里巴巴(中国)网络技术有限公司、华为技术有限公司、传神语联网网络科技
股份有限公司、北京中译天凯教育服务有限公司、成都优译信息技术股份有限公司、杭州中语科技有限
公司、苏州联跃科技有限公司、北京思必锐翻译有限责任公司。
本规范主要起草人:胡开宝、杨平、张雪涛、罗慧芳、陈圣权、吴永波、谢凝、彭成超、许文胜、李爱军、
梁红丽、王海涛、王海波、李洁、潘轶岑、何征宇、刘四元、蔡方仁、俞敬松、高志军、张威、程乐、严志军、
黎昌抱、易绵竹、毕玉德、郭庆、管新潮、田绪军、李婵、李晓倩、胡昂、单伟清、任才淇。
引 言
中国翻译协会是包括翻译与本地化服务、语言教学与培训、语言技术工具开发、语言相关咨询业务
在内的语言服务行业的全国性组织。制定语言服务规范,推动行业有序健康发展,是中国翻译协会的工
作内容之一。
随着中国的外商投资和对外直接投资进入新的阶段,以及国家“一带一路”倡议、经济文化“走出去”
的进一步实施,语言服务特别是翻译成为了各项政策落地的关键点和瓶颈,传统的方式已经不能满足语
言服务需求的迅猛增长,而基于人工智能神经网络技术的机器翻译正在快速发展,创新的人机融合语言
服务模式正在悄然兴起,而语料库的研究、建设、交易和共享是其中的关键。建立一个既能服务于学术
研究又能服务于语言服务和机器翻译的语料库通用技术规范将起到以下作用:(1)响应“一带一路”倡议
和经济文化“走出去”等国家大政方针,服务于国传、外宣、文化、经贸、安全等重大垂直领域,推进国家话
语权和语言软实力建设;(2)制定和落实语料库行业规范,可以在此基础上建立自主、可控的以中文为核
心的语料共享和交易平台;(3)倡导“安全语料大数据”,在充分尊重版权的前提下,以互联网思维和人工
智能助力语言服务模式的变革。
语料库通用技术规范
1 范围
本规范描述并规定了语料库的建设与加工、管理与维护、交易与共享。关于语料库的其他规范将在
之后以系列规范的形式予以发布。
通过实施本规范,语料库提供方可以证明其语料是否符合语料库规范,是否能够满足基本的语料使
用要求;语料库使用方可以判断语料库是否能够用于某特定用途。
2 规范性引用文件
下列文件对本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。
凡是不注日期的引用文件,其最新版本(包括所有的修改)适用于本文件。
GB/T 19682-2005 翻译服务译文质量要求
ISO 639 语种名称代码
ISO 3166 国家名称用语公报
3 术语和定义
下列术语和定义适用于本文件。
3.1
语料 text
语言材料或语言应用的样本
3.2
语料库 corpus
由依据一定抽样方法收集的自然出现的语料(3.1)所构成的电子数据库
注:是按照一定目的和方法进行选择并有序排列的数据汇集。
3.3
形符 token
语料库(3.2)中出现的所有词形
示例:go、goes、went、going为4个英语词形。......
|