路径: 主页 > GB/T > 第224页 > GB/T 45288.2-2025
标准搜索结果: 'GB/T 45288.2-2025'
| 标准编号 | GB/T 45288.2-2025 (GB/T45288.2-2025) | | 中文名称 | 人工智能 大模型 第2部分:评测指标与方法 | | 英文名称 | Artificial intelligence - Large-scale model - Part 2: Testing and evaluation for metrics and methods | | 行业 | 国家标准 (推荐) | | 中标分类 | L70 | | 国际标准分类 | 35.240 | | 字数估计 | 30,397 | | 发布日期 | 2025-02-28 | | 实施日期 | 2025-02-28 | | 发布机构 | 国家市场监督管理总局、中国国家标准化管理委员会 |
GB/T 45288.2-2025: 人工智能 大模型 第2部分:评测指标与方法
ICS 35.240
CCSL70
中华人民共和国国家标准
人工智能 大模型
第2部分:评测指标与方法
2025-02-28发布
2025-02-28实施
国 家 市 场 监 督 管 理 总 局
国 家 标 准 化 管 理 委 员 会 发 布
目次
前言 Ⅲ
引言 Ⅴ
1 范围 1
2 规范性引用文件 1
3 术语和定义 1
4 缩略语 1
5 评测指标 1
5.1 理解能力评测指标 1
5.2 生成能力评测指标 8
6 评测方法 11
6.1 概述 11
6.2 评测数据集 14
6.3 评测环境 14
6.4 评测工具 14
6.5 评测实施 14
附录A(资料性) 评测指标计算方法 17
A.1 客观评测方法 17
A.2 主观评测方法 18
参考文献 21
前言
本文件按照GB/T 1.1-2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定
起草。
本文件是GB/T 45288《人工智能 大模型》的第2部分。GB/T 45288已经发布了以下部分:
---第1部分:通用要求;
---第2部分:评测指标与方法;
---第3部分:服务能力成熟度评估。
请注意本文件的某些内容可能涉及专利。文件的发布机构不承担识别专利的责任。
本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。
本标准起草单位:中国电子技术标准化研究院、上海人工智能创新中心、中国科学院自动化研究所、
蚂蚁科技集团股份有限公司、北京航空航天大学、清华大学、杭州联汇科技股份有限公司、中国铁建股份
有限公司、北京百度网讯科技有限公司、中国南方电网有限责任公司、中国移动通信有限公司研究院、
国家能源投资集团有限责任公司信息技术分公司、华为云计算技术有限公司、上海商汤智能科技有限公
司、阿里云计算有限公司、深圳市腾讯计算机系统有限公司、北京奇虎科技有限公司、北京智源人工智能
研究院、中铁第五勘察设计院集团有限公司、北京智谱华章科技有限公司、浪潮云信息技术股份公司、科
大讯飞股份有限公司、中国电力科学研究院有限公司、天津大学、中国电信股份有限公司研究院、中央广
播电视总台、北京百川智能科技有限公司、同方知网数字出版技术股份有限公司、北京中关村实验室、上
海市人工智能行业协会、南方电网科学研究院有限责任公司、西安电子科技大学、西南科技大学、哈尔滨
工业大学、中国科学院软件研究所、北京大学武汉人工智能研究院、青岛海信电子技术服务有限公司、
北京格灵深瞳信息技术股份有限公司、北京工业大学、南方电网人工智能科技有限公司、中国电信集团
有限公司、天翼云科技有限公司、北京软件产品质量检测检验中心有限公司、北京世纪好未来教育科技
有限公司、北京小米移动软件有限公司、北京智芯微电子科技有限公司、中国移动通信集团有限公司、云
知声智能科技股份有限公司、北京中关村科金技术有限公司、青岛海尔科技有限公司、杭州海康威视数
字技术股份有限公司、京东方科技集团股份有限公司、昆仑数智科技有限责任公司、浪潮电子信息产业
股份有限公司、浪潮软件科技有限公司、马上消费金融股份有限公司、鹏城实验室、平头哥(上海)半导体
技术有限公司、麒麟合盛网络技术股份有限公司、山东浪潮科学研究院有限公司、山东省人工智能研究
院、上海计算机软件技术开发中心、上海人工智能研究院有限公司、北京安声科技有限公司、上海燧原科
技股份有限公司、上海天数智芯半导体有限公司、深圳前海微众银行股份有限公司、深圳思谋信息科技
有限公司、西北工业大学、西门子(中国)有限公司、云从科技集团股份有限公司、上海文鳐信息科技有限
公司、浙江大华技术股份有限公司、万达信息股份有限公司、上海玄武信息科技有限公司、中移互联网有
限公司、四川长虹电子控股集团有限公司。
本标准主要起草人:董建、徐洋、鲍薇、陈恺、汪群博、马骋昊、孙曦、宋文林、刘祥龙、陶建华、赵天成、
黄现翠、孙传兴、马珊珊、李栋、于佃海、龙云、刘伟东、经迪春、郑子木、蒋慧、彭骏涛、胡智超、张向征、
杨熙、郑中、冯涛、郑佳佳、刘聪、周飞、陈晰、李建欣、熊德意、杨明川、王峰、梅剑平、陈炜鹏、张宏伟、
张松阳、彭晋、刘静、刘艾杉、王嘉凯、高东辉、马同森、张天霖、高铁柱、陈曦、梁志宏、何刚、俞文心、
杨沐昀、孟令中、朱贵波、王金桥、郑若琳、沈芷月、聂简荻、任海峰、石羡、吴玺宏、刘尚、刘卫卫、石聪聪、
丁鹏、刘小欧、项超、薛德军、王龙跃、刘微、胡全一、孙浩源、孙林、赵必美、玄日成、赵春昊、索思亮、
陈立明、蒋屹新、武姗姗、高鹏军、孔昊、薛云志、刘子韬、于磊、郑哲、邓超、梁家恩、崔明飞、鄂磊、任烨、
张志刚、陈宏志、吴韶华、王珂琛、冯月、李睿、李晋伟、龙震岳、高慧、张旭、段强、单珂、陈敏刚、宋海涛、
刘益帆、王思善、余雪松、李斌、张驰、张涛、生若谷、孙进、芮子文、孔维生、童庆、杨登峰、孙文庆、朱林、
杨兰。
引 言
大模型已成为人工智能发展的重要技术手段,在引领产业变革中发挥重要作用,国内外人工智能相
关机构相继研究开发百余种大模型产品和评测榜单,导致用户难以有效评测人工智能产品的技术水平
和服务能力。GB/T 45288《人工智能 大模型》旨在规定通用大模型的技术要求、评测指标和服务能
力,拟由五个部分构成。
---第1部分:通用要求。目的在于确立大模型的参考架构,规定通用技术要求。
---第2部分:评测指标与方法。目的在于确立大模型的评测指标,描述评测方法。
---第3部分:服务能力成熟度评估。目的在于给出大模型服务能力成熟度等级及评估方法。
---第4部分:计算机视觉大模型。目的在于定义计算机视觉大模型的概念和功能,规定技术要求
和测试方法。
---第5部分:多模态大模型。目的在于定义多模态大模型的概念和功能,规定技术要求和测试
方法。
人工智能 大模型
第2部分:评测指标与方法
1 范围
本文件确立了人工智能大模型的评测指标,描述了人工智能大模型的评测方法。
本文件适用于模型提供者、应用服务者和应用消费者等对大模型能力进行评估与测试,也适用于指
导大模型的设计、开发、应用。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文
件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于
本文件。
GB/T 42755-2023 人工智能 面向机器学习的数据标注规程
GB/T 45288.1 人工智能 大模型 第1部分:通用要求
3 术语和定义
GB/T 45288.1界定的术语和定义适用于本文件。
4 缩略语
下列缩略语适用于本文件。
5 评测指标
5.1 理解能力评测指标
5.1.1 概述
大模型理解能力评测主要分为单模态维度和多模态维度,单模态维度主要包括文本、图像、音频
3个二级维度。多模态维度主要包括图文、文音、图音、图文音4个二级维度。理解能力评测维度和典
型任务见表1。
表1 理解能力评测维度和典型任务
一级维度 二级维度 典型任务 描述
单模态
文本
图像
音频
文本分类 将文本划分为不同的类别或标签
信息抽取 模型能根据文本内容,完成内容、实体、事件、属性、关系等信息的抽取
数学推理
理解和应用数学概念、原理来解决涉及数学运算问题的能力,如解析表
达式、公式推导等
因果推理 模型在文本模态中识别和计算因果关系的能力
常识推理 在日常情境下,结合常识理解和推断隐含信息的能力
任务分解 模型能将复杂任务分解为多个步骤,并合理规划任务的执行顺序
文本问答 模型能根据用户提出的问题,提供合理、准确、实用的答案
多轮对话 模型在进行多轮对话场景下的问答能力
代码理解 模型能对给定的编程代码,给出相应的文本解释说明
长文本理解 模型能对长文本内容深入理解和分析,并提取其中信息
静态图像分类 模型能理解静态图像的语义内容,并输出其对应的类别标签
静态图像分割
把静态图像分成若干个特定的、具有独特性质的区域并提取感兴趣目标
的技术和过程
目标检测 在静态图像中检测和定位特定的目标物
动态图像分类 给定一个动态图像,为其划分到指定的类别中
行为识别
对视频数据进行分析,识别出视频中包含的人或物体的动作或行为,并
对其进行分类和识别
声纹识别
将声信号转换成电信号,再通过计算机进行识别,包括说话人辨识和说
话人验证
音频问答 模型能理解用户提供音频信息中的问题,并提供合理、准确、实用的答案
环境音分类 模型能识别、分析环境音中的语义信息等
多模态
图文
文音
图音
图文音
图文检索 模型能根据给定的图片/文本检索到与之最匹配的文本/图片构成配对
静态图像问答 模型能回答针对静态图像的文本问题
视觉空间关系 模型能基于图片内容正确判断文本中所描述的对象间位置关系
视觉语言推理 模型能基于给定的一对图片和描述,判断描述与图片间的对应关系是否一致
视觉蕴含 模型能推理判断给定图片和文本之间的关系
视频检索 模型能根据给定的视频/文本检索到与之最匹配的文本/视频构成配对
视频问答 模型能回答针对视频的文本问题
图表推理 模型能理解推理图表信息,并据此作出合理的推断
文音检索 模型能根据给定的音频/文本检索到与之最匹配的文本/音频构成配对
视频异常检测 能同时基于视频和相应的声音对视频中的异常模式进行识别检测
有声视频检索
模型能根据给定的有声视频/文本检索到与之最匹配的文本/有声视频
构成配对
有声视频问答 模型能回答针对有声视频的文本问题
5.1.2 文本分类
评测大模型对输入文本内容的整体分析能力,包含但不限于以下能力。
a) 分类任务:能把输入的文本映射到具体的类目上,用户只需要提供待分类的文本,而无需关注
具体实现。主要包括:单标签、多标签分类任务。
b) 句子分词:能将句子序列切分成词序列。
c) 词性标注:能为自然语言文本中的每个词汇赋予一个词性,这里的词性类别可能是名词、动词、
形容词或其他。
d) 情感分析:能确定文本中蕴含的情感倾向,如正面、负面或中性。
e) 语义角色标注:能为句子中的谓词和论元赋予相应语义角色。
5.1.3 信息抽取
评测大模型从复杂文本内容中自动识别和抽取关键信息的能力,包含但不限于:
a) 关键词抽取:能从文本中识别出核心词汇和短语,这些关键词和短语对理解整个文本内容至关
重要;
b) 事实抽取:能从文本中提取具体的事实信息,如日期、地点、人物及相关事件等;
c) 论点抽取:能识别和提取文本中的观点和论证,包括支持和反对的论据,这对于分析评论性和
辩论性文本尤为重要;
d) 关系抽取:能从文本中抽取出实体之间的语义关系。在文本中,实体可包括人、地点、组织、事
件等,而语义关系则指实体之间的各种关系,如主谓关系、动宾关系、上下位关系、同义关系等;
e) 指代消解:能明确辨识并确定一句话中代词或名词短语所具体指代的对象。
5.1.4 数学推理
评测大模型通过对问题的理解,识别问题中隐含的数学运算,并使用数学概念、原理解决数学运算
问题的能力。包含但不限于:
a) 算术运算:能进行基本的加减乘除运算;
b) 代数问题:能解决方程求解、不等式问题、代数表达式的简化等代数问题的能力;
c) 几何解题:能解决涉及几何图形的性质、面积、周长等计算的能力;
d) 数学应用题:能解决日常生活中的数学问题的能力,如时间计算、距离计算、比例问题等;
e) 统计问题:能解读概率计算、统计图表等的能力。
5.1.5 因果推理
评测大模型对输入文本内容的因果关系分析能力,包含但不限于:
a) 因果关系识别:能从自然语言文本中识别出因果关系,如“因为所以”结构,其中包括
直接和间接因果关系;
b) 因果链构建:能根据文本中的信息构建出完整的因果链条,如从一系列事件中识别并链接每个
事件的起因和结果;
c) 假设性条件推理:能对包含假设性条件(如“如果将会”)的句子进行逻辑推理,准确识
别出条件与结果的关系;
d) 反事实条件推理:能处理反事实条件句(如“如果是,那么会怎样”),分析在不同
的条件下可能产生的不同结果。
5.1.6 常识推理
评测大模型在处理输入文本时的常识推理能力,包含但不限于:
a) 事实验证:能判断文本中的叙述是否符合常识和实际情况,如判断描述的事件是否可能发生;
b) 条件推理:能根据文本提供的条件,推断可能的或必然的结果;
c) 相似性判断:能评测两个或多个对象、事件或概念之间的相似度或关系;
d) 常识性结论推断:能从给定的信息中推断出符合常识的结论或解释。
5.1.7 任务分解
评测大模型是否具有将复杂任务分解为多个步骤,并合理规划任务的执行顺序的能力,包含但不
限于:
a) 思维链:评测模型的思维链构建能力;
b) 任务编排:评测模型对分解后的任务,进行合理编排的能力。
5.1.8 文本问答
评测大模型基于内部蕴含知识,实现对用户问题的系统解答以及提供信息查询的能力。包含但不
限于:
a) 生活常识:能对生活中常见的相关的常识问题进行解答或提供相关建议;
b) 医学知识:通过海量参数化的医学知识数据,能解答常识性的医学及相关生物化学问题;
c) 历史人文:通过海量参数化的历史人文数据,能帮助用户解答历史人文方面的问题、学习相关
知识或者提供相关建议;
d) 科学知识:通过海量参数化的科学知识数据,能帮助用户解答科学方面的问题、学习相关知识
或者提供相关建议;
e) 天文地理:通过海量参数化的天文地理知识数据,能帮助用户解答天文地理方面的问题、学习
相关知识或者提供相关建议;
f) 工作技巧:能支持工作中各种技巧的问答,包括:常用软硬件、工作软能力、学习技巧、自我管
理、实施工作技巧等。
5.1.9 多轮对话
评测大模型能进行多轮对话场景下的能力。包括但不限于:
a) 在多轮对话场景下的语言理解能力;
b) 在多轮对话场景下的指令跟随能力;
c) 在多轮对话场景下的上下文连贯性等。
5.1.10 代码理解
评测大模型对给定的编程代码,给出相应的文本解释说明并给出编程代码中存在的问题的能力,包
含但不限于:
a) 评测模型理解编程代码意图的能力;
b) 评测模型根据编程代码意图发现代码中问题并对其优化的能力;
c) 评测不同模型识别代码的编程语言类别的能力,如C、C++、Python等。
5.1.11 长文本理解
评测大模型对长文本内容的深入理解和分析能力,包含但不限于:
a) 主题模型识别:能识别并归类文本中的主要主题和概念,通常包括自然语言处理技术来探测文
本的潜在主题分布;
b) 文本逻辑性检测:评测文本中的逻辑连贯性和论证结构,包括但不限于因果关系、对比关系和
时间顺序的识别;
c) 细节理解:能准确识别并解释文本中的详细信息和复杂情节,可能涉及跨段落的推理和深层的
语义分析;
d) 跨文档信息融合:能整合多个相关文档中的信息,提供全面的信息视角和深入的内容理解。
5.1.12 静态图像分类
评测大模型是否具有理解静态图像的语义内容,并输出其对应的类别文本标签的能力,包含但不
限于:
a) 评测模型识别静态图像中包含语义信息并进行打标签的能力;
b) 评测模型理解静态图像整体语义内容并进行分类的能力。
5.1.13 静态图像分割
评测大模型是否具有精确划分静态图像中各个对象及其边界的能力,从而对图像中的不同区域进
行分类和标记。包含但不限于:
a) 对象边界识别:评测模型在准确识别和划分图像中单个对象边界的能力;
b) 区域分类:评测模型对图像中不同区域按类别进行分类和标记的能力。
5.1.14 目标检测
评测大模型是否具备识别并定位静态图像中多个物体的能力,包含但不限于:
a) 物体识别:评测模型能否准确识别静态图像中的物体种类;
b) 物体定位:评测模型能否准确地在静态图像中定位物体的位置,包括物体的边界框;
c) 多类别检测:评测模型对静态图像中多种类别物体的检测能力;
d) 小物体检测:特别评测模型在检测小尺寸物体上的性能。
5.1.15 动态图像分类
评测大模型是否具有理解视频内容并输出其对应类别文本标签的能力,包含但不限于:
a) 评测模型识别视频中的个体动作和活动种类的能力;
b) 评测模型理解视频整体语义内容和情境的能力;
c) 评测模型对视频中不同时间段事件的理解和分类能力。
5.1.16 行为识别
评测大模型是否具有理解并识别视频或图像中人或物体的动作和行为的能力,包含但不限于:
a) 人物动作识别:评测模型识别人物在视频或图像中特定动作(如跳跃、走路、打电话等)的能力;
b) 群体行为分析:评测模型理解并识别视频中多人交互行为(如会议讨论、体育比赛等)的能力;
c) 异常行为检测:能识别视频或图像中的异常或不寻常行为(如摔倒、突然奔跑等),对于安全监
控系统尤为重要。
5.1.17 声纹识别
评测大模型是否具有识别并验证个体基于声音特征的身份的能力。包含但不限于:
a) 说话人验证:评测模型能根据输入的声音样本确认说话者身份的能力;
b) 说话人辨识:评测模型能从多个说话者中识别并区分特定说话者的声音的能力。
5.1.18 音频问答
评测大模型是否具有从音频中提取信息并回答与之相关的问题的能力,包含但不限于:
a) 语音理解:能从人类语音中理解问题的具体内容;
b) 语音转文本:将问答中的语音转化为文本以便进一步处理;
c) 问题响应:根据语音输入的问题提供准确的答案或相关信息;
d) 上下文跟踪:在一系列语音问答中保持问题和答案的上下文关联。
5.1.19 环境音分类
评测大模型是否具备理解和分类环境中不同声音源的能力,包含但不限于:
a) 城市环境音识别:评测模型识别和分类城市环境中的特定声音,如交通噪声、人群聊天、警报声
等的能力;
b) 自然环境音识别:评测模型对自然环境中声音的分类能力,如鸟鸣、水流声、风声等;
c) 家庭环境音识别:评测模型对家庭环境中常见声音的分类能力,如电器声、门铃声、宠物声
音等。
5.1.20 图文检索
评测大模型是否具有根据给定的图片/文本检索到与之最匹配的文本/图片构成配对的能力,包含
但不限于:
a) 文搜图:能根据输入的文本查询检索相关的图像;
b) 图搜文:能查询检索与图像相关联的文字描述。
5.1.21 静态图像问答
评测大模型是否具有基于给定静态图像提供详细答案的能力,包含但不限于:
a) 物体识别与解释:能识别静态图像中的物体并对其特性或功能进行解释;
b) 场景理解:能理解静态图像展示的场景,并回答与场景相关的问题;
c) 情感分析:能从静态图像中的人物表情或场景氛围判断情感状态;
d) 动作解释:能识别静态图像中的动作,并解释这些动作的可能含义或目的。
5.1.22 视觉空间关系
评测大模型是否具有基于图片内容正确判断文本中所描述的对象间位置关系的能力。
5.1.23 视觉语言推理
评测大模型是否具有基于给定的一对图片和描述,判断描述与图像间的对应关系是否一致的能力。
5.1.24 视觉蕴含
评测大模型是否具有推理判断给定图片和文本之间的关系的能力。
5.1.25 视频检索
评测大模型是否具有根据给定的视频/文本检索到与之最匹配的文本/视频构成配对的能力,包括
但不限于:
a) 文本检索视频:能根据输入的文本查询检索相关的视频;
b) 视频检索文本:能查询检索与视频相关联的文字描述。
5.1.26 视频问答
评测大模型是否具有理解和分析视频内容,并基于视频内容回答相关问题的能力。包括但不限于:
a) 情节理解:能分析视频中的情节,识别关键事件和角色行为,以回答与情节相关的问题;
b) 角色分析:能根据视频中的人物表现和对话,解析角色性格、动机及其互动;
c) 情感分析:能识别视频中的情绪表达和氛围变化,回答有关视频情感层面的问题;
d) 事实检索:能从视频中检索具体的事实信息,如时间、地点、具体行为等,以回答事实性问题;
e) 抽象推理:能从视频中提取信息并进行抽象思考,回答涉及推理和逻辑的复杂问题。
5.1.27 图表推理
评测大模型是否具备理解和推理图表信息(如图形、表格和图表注解)的能力,以准确地解释图表中
的数据和趋势,并据此作出合理的推断。包括但不限于:
a) 数据理解:能准确解读图表中的数据点、数据分布、趋势线等,理解其所表达的统计意义;
b) 趋势预测:根据图表中的历史数据,预测未来的发展趋势或变化;
c) 相关性分析:能分析图表中不同数据系列之间的相关性,如正相关、负相关或无明显相关性;
d) 结果解释:能根据图表提供的数据,生成明确、准确的文字描述,解释图表所展示的结果。
5.1.28 文音检索
评测大模型是否具有根据给定的音频/文本检索到与之最匹配的文本/音频构成配对的能力,包括
但不限于:
a) 文本检索音频:能根据输入的文本查询检索相关的音频;
b) 音频检索文本:能查询检索与音频相关联的文字描述。
5.1.29 视频异常检测
评测大模型是否具有理解并识别视频中异常行为或事件的能力,包......
|