GB/T 36464.1-2020 相关标准英文版PDF

标准号码	价格美元	第2步(购买)	交付天数	标准名称
GB/T 36464.1-2020	409	GB/T 36464.1-2020	[PDF]天数 <=4	信息技术智能语音交互系统第1部分：通用规范

基本信息
标准编号	GB/T 36464.1-2020 (GB/T36464.1-2020)
中文名称	信息技术智能语音交互系统第1部分：通用规范
英文名称	Information technology - Intelligent speech interaction system - Part 1: General specifications
行业	国家标准 (推荐)
中标分类	L77
国际标准分类	35.240.01
字数估计	22,219
发布日期	2020-04-28
实施日期	2020-11-01
发布机构	国家市场监督管理总局、中国国家标准化管理委员会

GB/T 36464.1-2020 Information technology -- Intelligent speech interaction system -- Part 1: General specifications ICS 35.240.01 L77 中华人民共和国国家标准信息技术智能语音交互系统第1部分:通用规范 2020-04-28发布 2020-11-01实施国家市场监督管理总局国家标准化管理委员会发布目次前言 Ⅲ 1 范围 1 2 规范性引用文件 1 3 术语和定义 1 4 系统通用功能框架 4 5 语音交互界面要求 5 5.1 语音采集 5 5.2 语音播报 5 5.3 输入输出 5 5.4 环境噪声适应能力 5 6 数据资源要求 5 6.1 音频数据 5 6.2 文本数据 5 7 前端处理要求 6 7.1 语音唤醒 6 7.2 声源定位 6 7.3 声纹识别 6 7.4 语音增强 7 7.5 格式转换 7 7.6 重采样 7 8 语音处理要求 7 8.1 语音识别 7 8.2 语义理解 8 8.3 语音合成 8 8.4 端点检测 8 8.5 语音编解码 9 8.6 全双工交互 9 8.7 情感计算 9 9 服务接口要求 9 10 应用业务处理要求 9 附录A(资料性附录) 部分参数及其计算方法 10 A.1 概述 10 A.2 拾音距离 10 A.3 语音交互成功率 10 A.4 语音唤醒 10 A.5 语音识别 11 A.6 语义理解 11 A.7 语音合成 12 A.8 语音质量 12 A.9 声纹识别率 13 A.10 语音编解压缩率 13 A.11 语音增强 13 A.12 声源定位 13 A.13 语音打断成功率 13 参考文献 15 信息技术智能语音交互系统第1部分:通用规范 1 范围 GB/T 36464的本部分给出了智能语音交互系统通用功能框架,规定了语音交互界面、数据资源、前端处理、语音处理、服务接口、应用业务处理等功能单元要求。本部分适用于智能语音交互系统的通用设计、开发、应用和维护。 2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 11460 信息技术汉字字型要求和检测方法 GB 18030 信息技术中文编码字符集 GB/T 21024-2007 中文语音合成系统通用技术规范 GB/T 34083-2017 中文语音识别互联网服务接口规范 GB/T 34145-2017 中文语音合成互联网服务接口规范 SJ/T 11380-2008 自动声纹识别(说话人识别)技术规范 3 术语和定义下列术语和定义适用于本文件。 3.1 语音交互人类和功能单元之间通过语音进行的信息传递和交流活动。 [GB/T 36464.2-2018,定义3.1] 3.2 语音交互系统由功能单元(或其组合)、数据资源等组成的能够实现与人类之间进行语音交互的系统。 [GB/T 36464.2-2018,定义3.2] 3.3 智能语音交互系统以语音识别、语义理解、语音合成等全部或部分人工智能技术为基础,由智能软硬件组成,具备智能人机交互能力的语音交互系统。 3.4 人机交互人类和功能单元之间,为完成确定任务,以一定的交互方式进行的信息传递和交流活动。 3.5 功能单元能够完成特定任务的硬件实体,或软件实体,或硬件实体和软件实体。 [GB/T 5271.1-2000,定义01.01.40] 3.6 语音合成通过机械的、电子的方法合成人类语言的过程。 [GB/T 21024-2007,定义3.1] 3.30 情感计算在人机交互过程中对特定情感的收集、识别、决策和表示。 4 系统通用功能框架智能语音交互系统(以下简称系统)包括语音交互界面、前端处理、语音处理、服务接口、应用业务处理和数据资源等功能单元,其中: a) 语音交互界面提供系统与人直接进行语音交互的人机界面,包括语音信号输入、输出以及由前端处理、语音处理支撑的语音能力; b) 数据资源包括系统处理的音频数据和文本数据; c) 前端处理提供语音唤醒、声源定位、声纹识别、语音增强、格式转换、重采样等功能; d) 语音处理提供语音识别、语义理解、语音合成、端点检测、语音编解码、全双工交互、情感计算等功能; e) 服务接口提供外部设备/设施调用系统语音服务的接口; f) 应用业务处理对语音处理的结果转换为对应的应用指令并反馈业务响应结果。系统的通用功能框架见图1;部分参数定义及其计算方法参见附录A。 a) 应与具体操作系统和平台无关,并且可扩展; b) 宜是结构化数据,便于系统处理; c) 中文编码字符应符合GB 18030的规定,并依据GB/T 11460进行检测; d) 中文语音合成数据交换格式应符合GB/T 21024-2007中第5章的要求。 7 前端处理要求 7.1 语音唤醒 7.1.1 命令字唤醒系统应支持使用预先定义的命令字来对系统进行语音唤醒。 7.1.2 命令字声纹唤醒系统在语音唤醒过程中,宜支持使用文本相关声纹识别和命令字匹配,且在声纹确认成功后能唤醒系统。 7.1.3 自定义唤醒命令字系统应支持对用于语音唤醒的命令字进行自定义。 7.1.4 多唤醒命令字系统应支持使用不同的命令字进行语音唤醒;可根据指定的唤醒命令字进入对应的状态或模式。 7.1.5 多音频流监听系统在进行语音唤醒时,应支持同时监听多个音频流。 7.2 声源定位系统应支持通过对声源的平面角、方位角和声源距离的计算,来对发声源进行定位。 7.3 声纹识别 7.3.1 一般要求系统应支持下列声纹识别功能: a) 文本相关的声纹识别; b) 文本无关的声纹识别; c) 指定文本的声纹识别; d) 声纹模型训练; e) 声纹模型自适应; f) 声纹确认; g) 声纹辨认; h) 声纹检出; i) 声纹追踪; j) 语言相关的声纹识别; k) 语言无关的声纹识别。上述功能描述和要求应符合SJ/T 11380-2008第3章的要求。 7.3.2 声纹文本获取系统应支持获取指定文本或自定义文本,用于声纹模型训练、声纹模型自适应、声纹确认和声纹辨认。 7.4 语音增强 7.4.1 噪声抑制系统应支持对输入语音中的背景噪声进行抑制,提高语音的信噪比。 7.4.2 混响消除系统应支持对输入语音中的晚期混响进行抑制,提升语音信号的清晰度和可懂度。 7.5 格式转换系统应支持将音频的格式转换到另外一种格式,以满足语音处理的要求。 7.6 重采样系统应支持改变数字语音信号的采样率,以满足语音处理的要求。 8 语音处理要求 8.1 语音识别 8.1.1 一般要求系统应支持下列全部或大部分语音识别功能: a) 中文语音识别服务; b) 多语种识别; c) 多方言识别; d) 多语种混读识别; e) 自定义语法; f) 个性化识别; g) 识别结果多候选; h) 自定义热词; i) 识别结果进阶; j) 语言信息识别; k) 说话者信息识别。上述功能描述和要求应符合GB/T 34083-2017中4.2和4.3的要求。 8.1.2 语音识别方式系统应支持近场音频处理和/或远场音频处理中的一种;应至少支持关键字识别、命令字识别、连续语音识别中的一种。 8.2 语义理解 8.2.1 自定义语义词典系统能支持应用程序自定义语义词典和用户自定义语义词典。 8.2.2 自定义语义库系统能支持应用程序自定义语义库和用户自定义语义库。 8.2.3 模糊识别系统应正确处理错别字、同义词、多字少字问题。 8.2.4 语义抽取系统在交互过程中,应抽取语义要素和用户的关键意图。 8.2.5 语义排序系统能在语义理解结果中给出多个排序后的理解结果,供用户进行选择或二次确认。 8.3 语音合成系统应支持下列全部或大部分语音合成功能: a) 中文语音合成; b) 流式语音合成; c) 多种合成文本编码; d) 个性化合成; e) 多语种合成; f) 多方言合成; g) 多语种混读合成; h) 合成音频多音色; i) 用户自定义分词; j) 用户自定义读音; k) 合成文本位置信息; l) 文本分词和拼音信息; m) 音频时间信息。上述功能描述和要求应符合GB/T 34145-2017中4.2和4.3的要求。 8.4 端点检测 8.4.1 单端点检测系统应支持从一段连续的音频流中检测出第一个语音段的起始点和结束点。 8.4.2 多端点检测系统应支持从一段连续的音频流中检测出多个语音段的起始点和结束点。 8.4.3 端点检测灵敏度设置系统应支持设置语音等待超时时长和尾部静音长度,调整语音端点检测的灵敏度。 8.5 语音编解码 8.5.1 变码率编码系统应支持通过设置编码等级或通过其他方式改变语音编码算法输出的编码语音的码流率。 8.5.2 压缩等级设置系统应支持根据当前网络状况、系统性能等要求来设置语音编码算法的压缩等级。 8.6 全双工交互系统宜支持全双工语音交互;在此状态下,应支持一次语音唤醒和随时语音打断,能进行上下文语境和开放式对话管理,能控制对话节奏和预测用户意图等。 8.7 情感计算系统宜支持以语音信号为载体的情感计算。 9 服务接口要求系统应具备可供外部调用的服务接口。其中,中文语音识别的互联网接口应符合GB/T 34083的规定,中文语音合成的互联网接口应符合GB/T 34145的规定。 10 应用业务处理要求系统应支持将用户意图转换成应用和业务的控制命令或系统指令,实现应用和业务的响应。附录 A (资料性附录) 部分参数及其计算方法 A.1 概述本附录给出了用于描述智能语音交互系统的部分参数定义及其计算方法。 A.2 拾音距离当声源与拾音设备之间的距离≤1m时,为近场;当声源与拾音设备之间的距离 >1m时,为远场。 A.3 语音交互成功率在一定的时间段内,成功的语音交互会话总数占有效的语音交互会话总数的百分比。“成功的语音交互会话”指获取到完整的语音服务结果,期间未产生差错的语音交互会话;“有效的语音交互会话”指全部的语音交互会话去除由于用户终端故障或用户行为、参数错误导致的失败会话。交互成功率的计算方法参见公式(A.1): PS= S+F× 100% (A.1) 式中: PS---交互成功率,%; S ---交互成功的次数; F ---交互失败的次数。 A.4 语音唤醒 A.4.1 唤醒率某段时间内的语音唤醒操作中,成功唤醒的次数占语音唤醒总次数的比率。用于描述语音唤醒操作的正确响应情况,其计算方法参见公式(A.2): ρsw= Nsw Nw × 100% (A.2) 式中: ρsw ---唤醒率,%; Nsw---成功唤醒次数; Nw ---语音唤醒操作次数。 A.4.2 误唤醒频度误唤醒频度描述误唤醒操作在单位时间内出现的频度,其计算方法参见公式(A.3): fFW= NFW (A.3) 式中: fFW ---误唤醒频度,单位为次每小时(次/h); NFW---在考察的时长内出现误唤醒的次数; T ---评价时长,单位为小时(h)。 A.5 语音识别 A.5.1 字准确率字准确率的计算方法参见GB/T 21023-2007的5.2.1的规定。 A.5.2 句识别率句识别率的计算方法参见公式(A.4): Psr= Nsr Nsi× 100% (A.4) 式中: Psr---句识别率,%; Nsr---智能语音交互系统正确识别的句数; Nsi---标注总句数。 A.5.3 起始响应时间从检测到用户有效语音输入时起至得到第一部分识别结果时止中间经过的时间,单位为毫秒 (ms),用于描述语音识别响应的实时性。 A.5.4 结束响应时间从检测到用户有效语音输入结束时起至得到最后一部分识别结果时止中间经过的时间,单位为毫秒(ms),用于描述语音识别响应的实时性。 A.6 语义理解 A.6.1 语义理解正确率语义理解正确率计算方法参见公式(A.5): RSS= NSS N ×100% (A.5) 式中: RSS---语义理解正确率,%; NSS---操作意图及语义要素均被正确判断的次数; N ---用户输入被正确识别出文本信息的总次数。 A.6.2 响应正确率语文理解响应正确率计算方法参见公式(A.6): A.9 声纹识别率声纹识别率包括错误拒绝率、错误接受率、......

英文网页English: GB/T 36464.1-2020

相关标准: GB/T 42450|GB/T 36464.4|GB/T 36464.5|GB/T 36464.3|