路径: 主页 > GB/T > 第683页 > GB/T 20532-2025
| 标准编号 | GB/T 20532-2025 (GB/T20532-2025) | | 中文名称 | 信息处理用现代汉语词类标记规范 | | 英文名称 | Specification of part of speech (POS) tag of contemporary Chinese for Chinese information processing (CIP) | | 行业 | 国家标准 (推荐) | | 中标分类 | A22 | | 国际标准分类 | 01.040.01 | | 字数估计 | 17,135 | | 发布日期 | 2025-08-29 | | 实施日期 | 2026-03-01 | | 旧标准 (被替代) | GB/T 20532-2006 | | 发布机构 | 国家市场监督管理总局、国家标准化管理委员会 |
GB/T 20532-2025: 信息处理用现代汉语词类标记规范
ICS 01.040.01
CCSA22
中华人民共和国国家标准
代替GB/T 20532-2006
信息处理用现代汉语词类标记规范
2025-08-29发布
2026-03-01实施
国 家 市 场 监 督 管 理 总 局
国 家 标 准 化 管 理 委 员 会 发 布
目次
前言 Ⅲ
1 范围 1
2 规范性引用文件 1
3 术语和定义 1
4 总则 1
5 词类及其他切分单位分类 2
6 标记代码的组合应用 6
7 标记代码表 7
8 证实方法 10
参考文献 11
前言
本文件按照GB/T 1.1-2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定
起草。
本文件代替GB/T 20532-2006《信息处理用现代汉语词类标记规范》,与GB/T 20532-2006相
比,除结构和编辑性改动外,主要技术变化如下。
a) 更改了范围(见第1章,2006年版的第1章)。
b) 在术语与定义方面,更改术语“汉语信息处理”为“中文信息处理”,并更改了定义(见3.1,2006
年版的2.1);增加了“现代汉语”的术语和定义(见3.2);更改“PartsofSpeech”为“Partof
Speech”(见3.3,2006年版的2.3)。
c) 在词类划分依据方面,删除“参考了《中学教学语法系统提要》”(见2006年版的3.2);增加“也
参考了其他语言文字规范标准和常用语文工具书、汉语语料库等的词类划分体系。”(见4.2)。
d) 在名词类方面,增加了名词小类的人名标记为姓和名的单独标记,分别标记为nhf和nhs(见
5.3.3);更改了名词小类中人名示例(见5.3.3,2006年版的4.1.1.5);更改了名词小类中机构名
示例(见5.3.5,2006年版的4.1.1.8);更改名词小类中其他专有名词示例(见5.3.6,2006年版
的4.1.1.9);更改了名词小类时间名词为时间词,作为基本词类,标记为t(见5.4,2006年版的
4.1.1.2);更改了名词小类方位名词为方位词,作为基本词类,标记为l(见5.5,2006年版的
4.1.1.3);删除了处所名词示例中的“边疆”一词(见2006年版的4.1.1.4);删除了名词小类中的
族名(见2006年版的4.1.1.7)。
e) 在动词类方面,更改了趋向动词示例(见5.6.5,2006年版的4.1.2.5);增加了形式动词作为动
词小类,标记为vf(见5.6.6);增加了心理动词作为动词小类,标记为vs(见5.6.7)。
f) 在数词类修订内容方面,增加了基数词作为数词小类,标记为 mc(见5.9.1);增加了序数词作
为数词小类,标记为mo(见5.9.2)。
g) 在代词类方面,增加了人称代词作为代词小类,标记为rp(见5.11.1);增加了指示代词作为代
词小类,标记为rd(见5.11.2);增加了疑问代词作为代词小类,标记为ri(见5.11.3)。
h) 在新增基本词类方面,增加了语气词作为基本词类,标记为y(见5.16);在其他切分单位修订
内容方面,删除了名词性习用语、动词性习用语、形容词性习用语、连词性习用语4个习用语小
类,采用组合方式进行标记(见2006年版的4.2.1);删除了名词性缩略语、动词性缩略语、形容
词性缩略语3个缩略语小类,采用组合方式标记(见2006年版的4.2.2);删除了名词性语素
字、动词性语素字、形容词性语素字3个语素字小类,采用组合方式标记(见2006年版的
4.2.5)。
i) 在新增“标记代码的组合原则与应用”方面,增加了“标记代码的组合原则”(见4.4);增加了“标
记代码的组合应用”(见第6章);增加了非汉字字符串的语法功能标注,采用组合方式进行标
记(见6.5)。
j) 在其他修订内容方面,更改“其他”为“其他符号”(见5.19.7,2006年版的4.2.7);更改了“q”(量
词)的代码说明“quantity”为“依据通常做法”(见第7章,2006年版的第5章);增加了“词类标
记代码表”(见7.1);增加了“其他切分单位标记代码表”(见7.2);增加了“词类标记组合代码
表”(见7.3);增加了“证实方法”(见第8章)。
本文件由教育部(语言)提出。
本文件由全国语言文字标准化技术委员会(SAC/TC500)归口。
本文件起草单位:北京师范大学中文信息处理研究所、教育部语言文字应用研究所。
本文件主要起草人:杨丽姣、肖航、靳光瑾、富丽、刘智颖、宋培彦、胡韧奋、李洪政、李慧、李娟。
本文件及其所代替文件的历次版本发布情况为:
---2006年首次发布为 GB/T 20532-2006;
---本次为第一次修订。
信息处理用现代汉语词类标记规范
1 范围
本文件规定了信息处理中现代汉语词类及其他切分单位的标注类别与标记代码。
本文件适用于中文信息处理与语言资源建设,现代汉语教学与研究、国际中文教育、汉语方言与古
代汉语信息处理等参照使用,支持智能化信息处理与语言治理能力现代化的发展需求。
2 规范性引用文件
本文件没有规范性引用文件。
3 术语和定义
下列术语和定义适用于本标准。
3.1
利用计算机技术与人工智能方法,对中文音、形、义等信息进行输入、输出、提取、分析、理解、生成与
应用等处理的过程。
3.2
现代汉语 contemporaryChinese
自“五四运动”以来逐步确立并广泛使用的汉民族共同语。1)
3.3
切分单位 segmentunit
中文信息处理使用的、具有确定语法功能的基本单位。2)
1) 现代汉语:包括以普通话为代表的口语形式以及以现代白话文为主的书面语形式。它是当前中文信息处理的
......
|