标准搜索结果: 'GB/T 25724-2010'
| 标准编号 | GB/T 25724-2010 (GB/T25724-2010) | | 中文名称 | 安全防范监控数字视音频编解码技术要求 | | 英文名称 | Technical specification of surveillance video and audio coding | | 行业 | 国家标准 (推荐) | | 中标分类 | A91 | | 国际标准分类 | 13.310 | | 字数估计 | 191,132 | | 发布日期 | 2010-12-23 | | 实施日期 | 2011-05-01 | | 引用标准 | GB/T 20090.2-2006 | | 标准依据 | 国家标准批准发布公告2010年第10号(总第165号) | | 发布机构 | 中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会 | | 范围 | 本标准规定了安全防范领域监控应用的数字视音频编码、解码过程的技术要求。本标准适用于安全防范领域的视音频实时压缩、传输、播放和存储等业务, 对于其他需要视音频编解码的领域也可参考采用。 |
GB/T 25724-2010
Technical specification of surveillance video and audio coding
ICS 13.310
A91
中华人民共和国国家标准
安全防范监控数字视音频
编解码技术要求
2010-12-23发布
2011-05-01实施
中华人民共和国国家质量监督检验检疫总局
中国国家标准化管理委员会发布
目次
前言 Ⅲ
引言 Ⅳ
1 范围 1
2 规范性引用文件 1
3 术语、定义和缩略语 1
3.1 术语和定义 1
3.2 缩略语 10
4 约定 11
4.1 算术运算符 11
4.2 逻辑运算符 11
4.3 关系运算符 12
4.4 位运算符 12
4.5 赋值运算符 12
4.6 数学函数 12
4.7 语法元素、变量和表 13
4.8 逻辑运算符的文字描述 14
4.9 过程 15
5 视频部分 15
5.1 编码比特流和输出数据的格式 15
5.2 语法和语义 20
5.3 解码过程 51
5.4 解析过程 79
6 音频部分 97
6.1 总体描述 97
6.2 编码器功能描述 100
6.3 解码器功能描述 141
6.4 比特分配描述 148
6.5 存储、传输接口格式 150
附录A(规范性附录) 假设参考解码器(HRD) 156
附录B(规范性附录) 字节流的格式 159
附录C(规范性附录) 视频档次与级别 161
附录D(规范性附录) 视频可用性信息(VUI) 166
附录E(规范性附录) 补充增强信息(SEI) 168
附录F(规范性附录) 变长码表 170
附录G(规范性附录) 音频档次和级别 171
附录H (规范性附录) 异常声音事件类型定义 173
附录I(资料性附录) VAD检测 174
附录J(资料性附录) 噪声消除 177
参考文献 186
前言
请注意,本标准的某些内容有可能涉及专利,本标准的发布机构不承担识别这些专利的责任。
本标准的附录A~附录H为规范性附录,附录I和附录J为资料性附录。
本标准由中华人民共和国公安部提出。
本标准由全国安全防范报警系统标准化技术委员会(SAC/TC100)归口。
本标准起草单位:公安部第一研究所、北京中星微电子有限公司、北京中盾安全技术开发公司、中星
电子股份有限公司、清华大学、香港大学、大连理工大学、江苏东奇信息科技有限公司、中国传媒大学信
息工程学院、国家多媒体软件工程技术研究中心、宁波艾利特科技发展有限公司、杭州恒生数字设备科
技有限公司、公安部第三研究所、浙江大华技术股份有限公司、北京声迅电子有限公司、天津市亚安科技
电子有限公司、深圳市艾立克电子有限公司、浙江大立科技股份有限公司、北京国通创安信息技术有限
公司、天津天地伟业数码科技有限公司、金鹏电子信息机器有限公司、北京蛙视通信技术有限责任公司、
杭州海康威视数字技术股份有限公司、中国科学院软件研究所、深圳中兴力维技术有限公司、北京汉邦
高科数字技术有限公司、宁波舜宇光电信息有限公司、数维科技(北京)有限公司、新太科技股份有限公
司、星际控股集团有限公司、浙江警官职业学院、北京富盛星电子有限公司、杭州华三通信技术有限公
司、广东志成冠军集团有限公司。
本标准主要起草人:陈朝武、邓中翰、李晓峰、杨晓东、张跃、邱嵩、冯宇红、卢京辉、余子龙、袁丽蓉、
费宝顶、高嵩、林冬、陈喆、钟兴业、王生进、杨磊、房子河、杨国胜、范京京、邹章彪、郅晨、王耀辉、王浩、
李鹏飞、王建勇、高磊、王晛、魏一、孙大瑞、闫建新、余和初、戴林、陈瑞军、于烨、黄麒麟、季鹏飞、韩大炜、
刘蕾蕾、陈玉、周志文、向稳新、吴参毅。
引 言
目前国内、国际没有专门针对安全防范监控应用的视音频编解码标准,现有的视音频编解码标准,
都是针对广播电视和大众娱乐方面的应用,在安全防范领域直接采用具有很大的不适应性。本标准专
门针对安防监控领域应用的特殊性,如:视频图像的实时传输性、全天候24h监控环境的适应性、场景
视音频信息的忠实还原性等要求制定。本标准主要技术特点有:
a) 支持高精度视频数据编码,适应宽动态范围,保留更多的图像细节,满足忠实于场景的要求。
视频支持8bit~10bit数据,并保留未来扩充到12bit~16bit的可能;
b) 支持帧内4×4预测与变换量化、自适应帧-场编码(AFF)和上下文自适应二进制算术编码
(CABAC)等技术,获得更好的图像质量和更高的编码效率;
c) 支持感兴趣区域(ROI)变质量编码,在传输网络带宽或数据存储空间有限的情况下,优先保证
ROI图像质量,节省非ROI的开销,提供更符合监控需要的高质量视频编码,提高监控系统整
体性能;
d) 支持可伸缩性视频编码(SVC),对视频数据分层次编码,满足不同传输网络带宽和数据存储环
境的需求;
e) 支持代数码书激励线性预测(ACELP)和变换音频编码(TAC)切换的双核音频编码,既保证对
语音信号具有较好的编码效果,也保证环境(背景)声音的编码效果;
f) 支持声音识别特征参数的编码,避免编码失真对语音识别和声纹识别的影响;
g) 支持绝对时间参考信息、特殊监控事件等监控专用信息。监控专用信息通过专门语法与视音频
压缩编码数据一起传输和存储,便于快速检索、分类查询、视音频同步和监控数据的综合应用;
h) 支持数据安全保护,规定加密和认证接口及数据格式,保证数据的安全性、完整性和非否认
性。既保证格式的统一,便于互联互通,也保留足够的扩展灵活性,支持更高性能的加密和认
证方式的增加和扩充。
相关专利情况说明
本文件的发布机构提请注意,声明符合本文件时,可能涉及与5.2.3.1、5.2.3.2、5.2.3.8、
5.2.4.2、5.2.4.4、5.2.4.10、5.3.6.7、6.1.2、6.1.4、6.2.6.1.3、6.2.6.1.4.10中有关内容相关的专利
的使用。
本文件的发布机构对于该专利的真实性、有效性和范围无任何立场。
该专利持有人已向本文件的发布机构表示,他愿意同任何申请人在合理且无歧视的条款和条件下,
就专利授权许可进行谈判。该专利持有人的声明已在本文件的发布机构备案。相关信息可以通过以下
联系方式获得:
专利持有人名称 联 系 地 址
北京中星微电子有限公司 北京海淀学院路35号世宁大厦(100191)
北京中盾安全技术开发公司 北京海淀区首体南路1号(100048)
中星电子股份有限公司
天津经济技术开发区第四大街80号天大科技园 A1
座2层(300457)
清华大学 北京海淀区清华园(100084)
数维科技(北京)有限公司 北京海淀区中关村南大街2号(100086)
武汉大学 湖北武汉市武汉大学(430079)
联系人:曾娟鹃
通讯地址:北京海淀区学院路35号世宁大厦16层
邮政编码:100191
电子邮件:zengjuanjuan@vimicro.com
电话:010-68948888-8950
传真:010-68944075
联系人:马志江
通讯地址:北京海淀区首体南路1号
邮政编码:100048
电子邮件:mzj76@yahoo.com
电话:010-88513553-828
传真:010-68454099
请注意除上述专利外,本文件的某些内容仍可能涉及专利。本文件的发布机构不承担识别这些专
利的责任。
安全防范监控数字视音频
编解码技术要求
1 范围
本标准规定了安全防范领域监控应用的数字视音频编码、解码过程的技术要求。
本标准适用于安全防范领域的视音频实时压缩、传输、播放和存储等业务,对于其他需要视音频编
解码的领域也可参考采用。
2 规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有
的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究
是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。
GB/T 20090.2-2006 信息技术 先进音视频编码 第2部分:视频
3 术语、定义和缩略语
下列术语、定义和缩略语适用于本标准。
3.1 术语和定义
3.1.1
“Z”字形扫描 zig-zagscan
变换系数从较低的空域频率到较高空域频率(近似)的一个明确排列顺序。“Z”字形扫描用于帧宏
块中的变换系数。
3.1.2
B条带 Bslice
根据同一条带内的已解码样点利用帧内预测进行解码,或者根据先前解码的参考图像利用双向预
测进行解码的条带,对每个块进行帧间预测时最多使用两个运动矢量和参考索引。
3.1.3
I条带 Islice
根据同一条带内的已解码样点利用帧内预测进行解码的条带。
3.1.4
P条带 Pslice
根据同一条带内的已解码样点利用帧内预测进行解码,或者根据先前解码的参考图像利用前向预
测进行解码的条带,对每个块进行帧间预测时最多使用一个运动矢量和参考索引。
3.1.5
NAL单元 NALunit
一个语法结构,包含后续数据的类型指示和所包含的字节数,数据以RBSP形式出现,必要时其中
还包括认证数据及散布的防伪字节。
3.1.6
NAL单元流 NALunitstream
由NAL单元组成的序列。
3.1.7
保留 reserved
某些语法元素的特定取值,供中国安全防范监控数字视音频编解码技术标准工作组将来使用。符
合本标准的比特流不应使用这些值,但是这些值将来可能在本标准的扩展版本中用到。
3.1.8
闭环基音搜索 closed-looppitchsearch
即自适应码书搜索,从加权输入信号和长时预测滤波器状态估计基音延迟的过程。
3.1.9
比特流 bitstream
编码视音频及其相关数据,构成一个或多个编码视音频序列的比特序列。比特流既可用来表示
NAL单元流,也可表示字节流。
3.1.10
变换系数 transformcoefficient
频率域的标量,与解码过程的反变换部分中一个特定的一维或二维频率索引相关联的系数。
3.1.11
一个与特定二维频率索引相关联的整数量值,解码过程中用于计算变换系数的值。
3.1.12
编码场 codedfield
一个场的编码表示。
3.1.13
编码过程 encodingprocess
产生符合本标准的比特流的过程,本标准对视频编码过程不做规定。
3.1.14
编码器 encoder
实现编码过程的实体,包括软件及硬件。
3.1.15
编码视频序列 codedvideosequence
按照解码顺序排列的IDR图像和紧随其后的零个或多个非IDR图像组成的图像序列。
3.1.16
编码条带NAL单元 codedsliceNALunit
包含编码图像的一个条带的NAL单元。
3.1.17
编码图像 codedpicture
一幅图像的编码表示。一个编码图像可以是一个编码场,也可以是一个编码帧。
3.1.18
编码图像缓存区 codedpicturebuffer
一个先入先出缓存区,其存储方式按解码顺序排列。
3.1.19
编码帧 codedframe
一个帧的编码表示。
3.1.20
残差 residual
样点或数据元素预测值与解码值之间的差值。
3.1.21
参考场 referencefield
一个标记为参考图像的场,用于编码场中P条带和B条带的解码过程中的帧间预测。
3.1.22
参考索引 referenceindex
参考图像的索引。
3.1.23
参考图像 referencepicture
对解码顺序上后续图像的解码过程进行帧间预测的样点图像。
3.1.24
参考帧 referenceframe
一个标记为参考图像的帧,用于编码帧中的P条带和B条带的解码过程中的帧间预测。
3.1.25
参数 parameter
序列参数集、图像参数集或安全参数集中的一个语法元素。参数也用于量化参数一词中。
3.1.26
层 layer
没有分支等级关系中的一组句法结构。高层包含低层。编码层指编码图像序列层、图像层、条带层
和宏块层。对于可伸缩性视频编码图像,不同层的图像具有不同的可伸缩性(如不同的空间分辨率)。
3.1.27
场 field
一帧中的相隔行的集合。一帧由两场组成,包括一个顶场和一个底场。
3.1.28
场宏块 fieldmacroblock
所包含的样点仅来自一个编码场的宏块。一个编码场的所有宏块均为场宏块。
3.1.29
场扫描 fieldscan
变换系数的排列顺序。与“Z”字形扫描顺序不同的是,它对列的扫描快于对行的扫描。场扫描用
于场宏块中的变换系数。
3.1.30
代数码书 algebraiccodebook
脉冲幅度和位置组成的一个集合。通过码字索引k按照一定的规则得到第k个激励码矢量的脉冲
幅度和位置。
3.1.31
档次 profile
本标准中的一个特定语法子集。
3.1.32
底场 bottomfield
组成帧的两个场中的一个。底场的每一行在空间位置上均位于其对应的顶场行的下面。
3.1.33
线性预测系数的变换称为电导频谱对。将逆滤波器传输函数A(z)分解为一个偶对称和一个奇对
称多项式函数,该函数在单位圆上的根,即电导频谱对。
3.1.34
顶场 topfield
组成帧的两个场中的一个。顶场的每一行在空间位置上均位于其对应的底场行的上面。
3.1.35
对声道脉冲响应进行建模的滤波器。激励信号通过该滤波器可得到合成信号。
3.1.36
二进制位 bin
二进制位串中的1bit。
3.1.37
二进制位串 binstring
一串二进制位。二进制位串为二值化的语法元素值的二进制表示。
3.1.38
二值化 binarization
语法元素所有可能值与一组二进制位串之间的唯一映射。
3.1.39
反变换 inversetransform
解码过程的一部分,将变换系数矩阵转换为空域样点矩阵的过程。
3.1.40
一个字节,其值等于0x03,可能在NAL单元中出现。防伪字节的出现可以保证在NAL单元的后
续字节对齐的字节流中不会含有起始码前缀。
3.1.41
非参考图像 non-referencepicture
不用于对任何其他图像进行帧间编码的图像。
3.1.42
分量 component
图像的三个样点矩阵(一个亮度矩阵,两个色度矩阵)中的一个矩阵或矩阵中的单个样点。
在音频部分,也指矢量中的元素或信号中的某些频率成分。
3.1.43
利用共振峰处的噪声掩蔽特性,在共振峰区域分配比较大的失真,来减少峰谷主观感觉噪声的
滤波。
3.1.44
功率谱 powerspectrum
信号通过傅立叶变换后得到幅度谱的平方。
3.1.45
光栅扫描 rasterscan
矩形二维图像到一维图像的映射过程,一维图像的第一组值来自于二维图像最上边一行的从左到
右扫描,然后依次是第二行、第三行等。对于图像每行(由上到下)都是从左到右扫描的。
3.1.46
宏块 macroblock
一个16×16的亮度样点块和相应的两个色度样点块。
3.1.47
宏块索引 macroblockindex
编码帧中,宏块索引为帧图像的宏块光栅扫描顺序的序号,起始序号为0。编码场中,宏块索引为
场图像的宏块光栅扫描顺序的序号,起始序号为0。
3.1.48
后向预测 backwardprediction
使用显示顺序上在后的解码图像中的样点对当前图像中的样点进行预测。
3.1.49
划分 partitioning
将一个集合分为子集的过程。集合中的每个元素属于且只属于某一个子集。
3.1.50
基本层图像 baselayerpicture
不需要参考其他图像层信息即可以解码的图像。
3.1.51
级别 level
本标准中的一个特定档次中的参数取值的限定集合。一个档次可以包含一个或多个级别。对所有
档次定义了一组相同的级别,不同档次的每个级别大部分特性都是通用的。对于一个独立的实现,在一
定的约束条件下,可以支持多个级别。
3.1.52
一幅编码图像,其中所有条带为I条带。IDR图像解码之后,解码顺序上所有后续的编码图像都可
以不用根据任何在IDR图像之前解码的图像来进行帧间预测解码。每个编码视频序列的第一幅图像
为IDR图像。
3.1.53
一个假设的解码器模型,规定了对于符合本标准的NAL单元流或字节流的可变性的约束。
3.1.54
解码过程 decodingprocess
读入编码的比特流后产生解码图像或者音频数据的过程。
3.1.55
解码器 decoder
实现解码过程的实体,包括软件及硬件。
3.1.56
解码顺序 decodingorder
解码过程中处理语法元素的顺序。
3.1.57
解码图像 decodedpicture
通过解码一幅编码图像得到的图像。一幅解码图像既可以是一个解码帧,也可以是一个解码场。
一个解码场可以是顶场,也可以是底场。
3.1.58
解码图像缓存区 decodedpicturebuffer
保存解码图像的缓存区,用于附录A中规定的预测参考、输出重排序或输出延时等。
3.1.59
开环基音搜索 open-looppitchsearch
直接从加权输入信号中估计最优基音延迟的过程。开环基音搜索简化了基音分析,并且将闭环基
音搜索限定在开环基音搜索的延迟值附近。
3.1.60
可变长度编码 variablelengthcoding
可逆的熵编码过程,为出现概率大的符号分配较短的码字,为出现概率小的符号分配较长的码字。
3.1.61
可伸缩性视频编码 scalablevideocoding
编码序列中的图像具有一定的可伸缩性。具有可伸缩性的图像通常包含基本层图像和增强层
图像。
3.1.62
块 block
在视频信号空间中,指一个M×N(M 列N 行)的样点矩阵,或者一个M×N 的变换系数矩阵。
在音频信号空间中,指一个一维矢量。
3.1.63
亮度 luma
一个样点矩阵或单个样点,用于描述信号的单色表示。亮度所用符号为Y。
3.1.64
解码过程中对变换系数幅值进行反量化时使用的参数。
3.1.65
零输入响应 zeroinputresponse
滤波器当前输入为零时,由过去输入而产生的输出。
3.1.66
美尔 Mel
一种非线性的频率刻度,根据主观音高进行划分。
3.1.67
用FFT将时域信号转化到频域,对其对数能量谱依照 ......
|