标准搜索结果: 'GB 18030-2005'
标准编号 | GB 18030-2005 (GB18030-2005) | 中文名称 | 信息技术 中文编码字符集 | 英文名称 | Information technolgy. Chinese coded character set | 行业 | 国家标准 | 中标分类 | L71 | 国际标准分类 | 35.040 | 字数估计 | 506,587 | 发布日期 | 2005-11-08 | 实施日期 | 2006-05-01 | 旧标准 (被替代) | GB 18030-2000 | 引用标准 | GB/T 2311-2000; GB 2312-1980; GB/T 11383-1989; GB 12345-1990; GB 13000.1-1993 | 起草单位 | 信息产业部电子工业标准化研究所 | 归口单位 | 中国电子技术标准化研究所 | 标准依据 | 国家标准批准发布公告2006年第1号(总第88号) | 提出机构 | 中华人民共和国信息产业部 | 发布机构 | 中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会 | 范围 | 本标准作为GB/T 2311体系的编码字符标准, 规定了信息技术用的中文图形字符及其二进制编码的十六进制表示。本标准适用于图形字特信息的处理、交换、存储、传输、显现、输入和输出。 |
GB 18030-2005
Information technolgy.Chinese coded character set
ICS 35.040
L71
中华人民共和国国家标准
GB 18030-2005
信息技术 中文编码字符集
2005-11-08发布
2006-05-01实施
中华人民共和国国家质量监督检验检疫总局
中国国家标准化管理委员会发布
目次
前言 Ⅲ
1 范围 1
2 规范性引用文件 1
3 原则 1
4 术语和定义 1
5 字汇 1
6 总体结构 2
7 字符的排列顺序 3
8 码位分配 4
附录A(规范性附录) 双字节字符表 7
A.1 表的内容 7
A.2 表的说明 7
附录B(规范性附录) 表意文字描述符 89
附录C(规范性附录) 追加的汉字及部首/构件 90
附录D(规范性附录) 四字节字符表 91
D.1 表的内容 91
D.2 表的说明 91
附录E(规范性附录) 部分字符代码的说明 499
GB 18030-2005
前言
本标准的单字节编码部分、双字节编码部分和四字节编码部分的 CJK 统一汉字扩充 A(即
0狓8139EE39-0狓82358738)部分为强制性。
本标准代替GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》。本标准
与上一版比,增加了编码汉字的数量,并补充规定了我国部分少数民族文字在本标准中的代码位置;本
标准重新规定了字符“”的编码位置;本标准的编码体系结构保持不变。
本标准的附录A、附录B、附录C、附录D和附录E是规范性附录。
本标准由中华人民共和国信息产业部提出。
本标准由中国电子技术标准化研究所归口。
本标准起草单位:信息产业部电子工业标准化研究所、北京大学计算机技术研究所、北大方正集团、
北京方正新天地信息网络科技有限责任公司、四通集团公司、中国电子信息产业发展研究院、中科院软
件所、长城软件公司、四通利方公司、中软总公司、金山软件公司、联想集团有限公司。
本标准主要起草人:陈軪、黄疆、胡万进、张建国、陈壮。
本标准于2000年首次发布,本次为第一次修订。
GB 18030-2005
信息技术 中文编码字符集
1 范围
本标准作为GB/T 2311体系的编码字符标准,规定了信息技术用的中文图形字符及其二进制编码
的十六进制表示。
本标准适用于图形字符信息的处理、交换、存储、传输、显现、输入和输出。
2 规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有
的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究
是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。
GB/T 2311-2000 信息处理 字符代码结构与扩充技术(idt ISO /IEC 2022:1994)
GB 2312-1980 信息交换用汉字编码字符集 基本集
GB/T 11383-1989 信息处理 信息交换用八位代码结构和编码规则(idt ISO 4873:1986)
GB 12345-1990 信息交换用汉字编码字符集 辅助集
GB 13000.1-1993 信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文
种平面(idt ISO /IEC 10646-1:1993)
3 原则
本标准向下与国家标准GB 2312信息处理交换码所对应的内码兼容。
本标准在字汇上支持GB 13000的全部中、日、韩(CJK)统一汉字(包括CJK统一汉字扩充A、CJK
统一汉字扩充B)字符和我国部分少数民族文字的字符。
4 术语和定义
下列术语和定义适用于本标准。
4.1
供组织、控制或表示数据用的元素集合中的一个元素。
4.2
字符及其编码表示。
4.3
用编码字符集表示的一个指定的字符集合。
4.4
本标准中留作未来国家标准规定的区域。
5 字汇
本标准收录的字符以单字节、双字节或四字节编码。
GB 18030-2005
5.1 单字节部分
本标准中,单字节的部分收录了GB/T 11383-1989的0x00到0x7F全部128个字符。
5.2 双字节部分
本标准中,双字节的部分收录内容如下:
GB 13000.1-1993的全部CJK统一汉字字符。见附录A。
GB 13000.1-1993的CJK兼容区中的21个汉字。见附录A。
GB 13000.1-1993中收录而GB 2312未收录的我国台湾地区使用的图形字符139个。见附录A。
GB 13000.1-1993收录的其他字符31个。见附录A。
GB 2312-1980中的非汉字符号。见附录A。
GB 12345-1990的竖排标点符号19个。见附录A。
GB 2312-1980未收录的10个小写罗马数字。见附录A。
GB 2312-1980未收录的带音调的汉语拼音字母5个以及ɑ和ɡ。见附录A。
汉字数字“○”。见附录A。
表意文字描述符13个。见附录A和附录B。
对GB 13000.1-1993增补的汉字和部首/构件80个。见附录A和附录C。
双字节编码的欧元符号。见附录A。
5.3 四字节部分
本标准的四字节的部分,收录了上述双字节字符之外的,GB 13000的CJK统一汉字扩充 A、CJK
统一汉字扩充B和已经在GB 13000中编码的我国少数民族文字的字符。见附录D。
6 总体结构
本标准中,采用单字节、双字节或四字节对字符编码。本标准中的任何一个字节均由八位二进制位
串组成,任何一个八位的值均由0x00至0xFF的十六进制记数法表示。本标准中,凡数字前标有0x的
表示采用十六进制,未标有0x的表示采用十进制。
单字节部分采用GB/T 11383-1989的编码结构与规则,使用0x00至0x7F码位。
双字节部分采用两个八位二进制位串表示一个字符,其首字节码位从0x81至0xFE,尾字节码位分
别是0x40至0x7E和0x80至0xFE。
四字节部分采用GB/T 11383-1989未采用的0x30到0x39作为对双字节编码扩充的后缀。这样
扩充的四字节编码,其范围为0x81308130到0xFE39FE39。四字节字符的第一个字节编码范围为0x81
至0xFE;第二个字节编码范围为0x30至0x39;第三个字节编码范围为0x81至0xFE;第四个字节编码
范围为0x30至0x39。即,
0x81308130至0x81308139;
0x81308230至0x81308239;
0x8130FE30至0x8130FE39;
0x81318130至0x81318139;
0x8131FE30至0x8131FE39;
0x82308130至0x82308139;
0x8230FE30至0x8230FE39;
0xFE308130至0xFE308139;
GB 18030-2005
0xFE39FE30至0xFE39FE39。
总体结构见表1及图1。
表1 码位范围分配图
字节数 码 位 空 间 码位数目
单字节 0x00~0x7F 128个码位
双字节
第一字节 第二字节
0x81~0xFE
0x40~0x7E,
0x80~0xFE
23940个码位
四字节
第一字节 第二字节 第三字节 第四字节
0x81~0xFE 0x30~0x39 0x81~0xFE 0x30~0x39
1587600个码位
图1 总体结构图
7 字符的排列顺序
7.1 单字节部分字符的排列顺序
本标准中单字节部分所有字符按照GB/T 11383-1989中相应字符的顺序排列。见图2。
GB 18030-2005
7.2 双字节部分字符的排列顺序
本标准双字节部分的字符排列顺序见附录A。
7.3 四字节部分字符的排列顺序
自0x81308130至0x8439FE39共50400个码位,对应本标准双字节部分未包括的所有GB 13000
基本多文种平面的字符,按照GB 13000基本多文种平面相应字符的顺序排列,剩余码位保留。
自0x85308130至0x8539FE39共12600个码位,为本标准的保留区,留待未来字符扩展使用。
自0x86308130至0x8F39FE39共126000个码位,为本标准的保留区,留待未来汉字字符扩展
使用。
自0x90308130至0xE339FE39共1058400个码位,用于对应GB 13000的16个辅助平面,字符排
列顺序完全遵照GB 13000的16个辅助平面的相应码位顺序依次排列,剩余码位保留。
自0xE4308130至0xFC39FE39共315000个码位,为本标准的保留区,留待未来标准扩展使用。
自0xFD308130至0xFE39FE39共25200个码位,为用户自定义区。
见附录D。
8 码位分配
8.1 单字节部分的码位分配
本标准中,单字节部分的码位分配见GB/T 11383-1989。见图2。
图2 单字节区码位图
GB 18030-2005
8.2 双字节部分的码位分配
本标准中,双字节部分的码位安排分为0x8140至0xFE7E和0x8180至0xFEFE两部分,共23940
个码位。见图3及表2。
图3 双字节部分编码空间结构图
表2 双字节部分的码位安排
类别 区名 码 位 范 围 码位数 字符数 字符类型
符号区
双字节
1区
首字节0xA1~0xA9
尾字节0xA1~0xFE
846 718 图形符号
双字节
5区
首字节0xA8~0xA9
尾字节0x40~0x7E和0x80~0xA0
192 166 图形符号
汉字区
双字节
2区
首字节0xB0~0xF7
尾字节0xA1~0xFE
6768 6763 汉字
双字节
3区
首字节0x81~0xA0
尾字节0x40~0x7E和0x80~0xFE
6080 6080 汉字
双字节
4区
首字节0xAA~0xFE
尾字节0x40~0x7E和0x80~0xA0
8160 8160 汉字
用户自
定义区
双字节用
户区1
首字节0xAA~0xAF
尾字节0xA1~0xFE
564
双字节用
户区2
首字节0xF8~0xFE
尾字节0xA1~0xFE
658
双字节用
户区3
首字节0xA1~0xA7
尾字节0x40~0x7E和0x80~0xA0
672
GB 18030-2005
8.3 四字节部分的码位分配
本标准的四字节部分收录了汉字和一部分我国少数民族文字,码位分配见表3。表3中没有指明
的四字节码位分配见7.3条。
表3 四字节部分的码位安排
码 位 范 围 码位数 字符数 字 符 类 型
0x81318132~0x81319934 243 49 维吾尔、哈萨克、柯尔克兹文
0x8430BA32~0x8430FE35 684 67 维吾尔、哈萨克、柯尔克兹文
0x84318730~0x8......
|