路径: 主页 > YY/T > 第26页 > YY/T 1833.3-2022
| 标准编号 | YY/T 1833.3-2022 (YY/T1833.3-2022) | | 中文名称 | | | 英文名称 | Artificial intelligence medical device - Quality requirements and evaluation - Part 3: General requirement for data annotation | | 行业 | 医药行业标准 (推荐) | | 中标分类 | C30 | | 字数估计 | 31,314 | | 发布机构 | 国家药品监督管理局 |
YY/T 1833.3-2022: 人工智能医疗器械 质量要求和评价 第3部分:数据标注通用要求
ICS 11.040.99
CCSC40
中华人民共和国医药行业标准
人工智能医疗器械 质量要求和评价
第3部分:数据标注通用要求
2022-08-17发布
2023-09-01实施
国家药品监督管理局 发 布
目次
前言 Ⅰ
引言 Ⅱ
1 范围 1
2 规范性引用文件 1
3 术语和定义 1
4 标注任务说明文档 2
5 数据标注质量特性 3
6 标注与质控流程 4
7 标注工具 5
8 评价方法 7
附录A(资料性) 标注任务描述示例 9
附录B(资料性) 业务架构示例(胸部CT肺结节) 19
附录C(资料性) 对AI辅助标注性能的评价 21
参考文献 26
前言
本文件按照GB/T 1.1-2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定
起草。
本文件是YY/T 1833《人工智能医疗器械 质量要求和评价》的第3部分。YY/T 1833已经发布
了以下部分:
---第1部分:术语;
---第2部分:数据集通用要求;
---第3部分:数据标注通用要求。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
本文件由人工智能医疗器械标准化技术归口单位归口。
本文件起草单位:中国食品药品检定研究院、国家药品监督管理局医疗器械技术审评中心、上海长
征医院、中国人民解放军总医院、中山大学中山眼科中心、四川大学华西医院、广东省人民医院、中国医
学科学院皮肤病医院(中国医学科学院皮肤病研究所)、中国科学院深圳先进技术研究院、浙江大学、
广州大学、深圳大学、北京大学、中国科学院自动化研究所、中国生物医学工程学会、河南省医疗器械检
验所、腾讯医疗健康(深圳)有限公司、上海联影智能医疗科技有限公司、飞利浦(中国)投资有限公司、
上海西门子医疗器械有限公司、通用电气医疗系统贸易发展(上海)有限公司、推想医疗科技股份有限公
司、北京安德医智科技有限公司。
本文件主要起草人:李静莉、彭亮、刘士远、何昆仑、郑海荣、田捷、吴健、周晓华、林浩添、步宏、林彤、
万遂人、梁会营、刘凯、孟祥峰、倪东、殷丽华、萧毅、李佳戈、李澍、王珊珊、王晨希、王晶、葛鑫、颜子夜、
钱天翼、崔征、秦川、詹翊强、王少康、郝烨、范丽、张楠、张培芳、刘畅、王浩。
引 言
近年来,人工智能医疗器械不断发展,成为医疗器械标准化领域的一个新兴方向。我国已初步建立
人工智能医疗器械标准体系。在该标准体系中,YY/T 1833《人工智能医疗器械 质量要求和评价》是
基础通用标准,为开展细分领域的标准化活动提供指导,拟由八个部分构成。
---第1部分:术语。目的在于为人工智能医疗器械的质量评价活动提供术语。
---第2部分:数据集通用要求。目的在于提出数据集的通用质量要求与评价方法。
---第3部分:数据标注通用要求。目的在于提出数据标注环节的质量要求与评价方法。
---第4部分:可追溯性。目的在于对利益相关方明确人工智能医疗器械可追溯性的含义、要求与
评价方法。
---第5部分:算法安全要求。目的在于规范人工智能医疗器械采用的人工智能算法的安全要求
与评价方法。
---第6部分:环境要求。目的在于规范人工智能医疗器械的运行环境条件要求与评价方法。
---第7部分:隐私保护要求。目的在于加强人工智能医疗器械保护受试者隐私的能力。
---第8部分:伦理要求。目的在于从技术层面实现人工智能伦理的要求,保护人的权益。
数据标注是基于监督学习的人工智能医疗器械在研发、测试阶段常用的一种技术服务,决定了参考
标准的准确性和可靠性,从而对数据集的质量和产品质量产生重要影响。本文件作为YY/T 1833的
第3部分,对数据标注说明文档、质量特性、标注与质控流程、标注工具和质量评价方法进行规范。
人工智能医疗器械 质量要求和评价
第3部分:数据标注通用要求
1 范围
本文件规定了人工智能医疗器械数据标注通用要求和评价方法。
本文件适用于人工智能医疗器械数据标注活动。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文
件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于
本文件。
YY/T 1833.1 人工智能医疗器械 质量要求和评价 第1部分:术语
YY/T 1833.2 人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求
3 术语和定义
YY/T 1833.1、YY/T 1833.2界定的以及下列术语和定义适用于本文件。
3.1
标注任务 annotationtask
有目的地对一批数据进行分析、添加外部知识的活动。
3.2
标注对象 annotationobject
标注任务分析的具体信息,如数据的类型、特征、属性等。
3.3
结构化标注 structuredannotation
使用固定格式、固定规则记录结果的标注任务。
3.4
非结构化标注 non-structuredannotation
使用不固定的格式、规则记录结果的标注任务。
3.5
半结构化标注 semi-structuredannotation
使用固定的格式、不固定的规则记录结果的标注任务。
3.6
手工标注 manualannotation
完全由人工执行的标注任务。
3.7
自动标注 automaticannotation
完全由机器执行的标注任务,标注完成后由人工审核。
3.8
半自动标注 semi-automaticannotation
由人工和机器混合完成的标注任务。
3.9
语义标注 semanticannotation
以数据代表的含义和关系为标注对象的标注任务。
3.10
标注人员 annotator
具备完成特定标注任务目标并满足质量要求的能力、执行标注任务、对标注结果有直接贡献的
人员。
注:包括初级标注人员、审核人员、仲裁人员等。
3.11
初级标注人员 initialannotator
执行标注任务、给出初步标注结果的人员。
3.12
审核人员 annotationreviewer
对初步标注结果进行审核和质控的人员。
3.13
仲裁人员 arbitrator
当多名标注人员对同一数据的标注结果不一致时,负责给出最终结果的人员。
注:一般情况下,仲裁人员的资质要求 >审核人员≥初级标注人员。
3.14
标注人员表现 annotatorperformance
标注人员执行标注任务的能力表征。
3.15
组织开展标注任务、对标注质量有直接责任的实体。
4 标注任务说明文档
4.1 标注任务分类
在标注任务开始前,标注责任方应明确标注任务的分类,包括数据模态、执行主体、标注结果格式、
标注结果性质、标注结果形式等维度。
标注任务的数据模态分为图像、信号、视频、文本等类型。标注任务依据其执行主体,可分为人工标
注、自动标注、半自动标注等类型。依据标注结果的格式,标注任务可分为结构化标注、非结构化标注、
半结构化标注等类型。标注结果性质可分为GT值、参考标准、金标准等类型。标注结果的形式分为检
出、分类、分割、语义等类型。
注:语义标注常用于描述目标之间的关系或联系,如超声图像上的肌肉、脂肪相对位置。
4.2 标注任务描述
4.2.1 标注规则
标注责任方宜陈述标注任务依据的规则,符合以下要求:
---各标注对象的定义唯一、无歧义;
---标注对象的名称具有依从性文件;
---不同标注对象之间是可区分的;
---标注对象的定性特征宜可验证;
---标注对象的定量特征宜可测量;
---提供标注规则的依从性文件,如根据专家评议、文献分析确定标注规则,宜描述分析过程;
---如标注规则来自试验测量、临床统计等渠道,宜提供客观数据;
---对标注规则可能导致的偏倚风险进行分析。
注:依从性文件包括法规文件、技术标准、医学规范、专家共识、专家评议、文献分析等。
4.2.2 标注人员
标注责任方应描述对标注人员的要求,包括人员资质、选拔依据、培训内容、对标注人员表现的评估
指标;如适用,应按照初级标注人员、审核人员、仲裁人员等角色分别展开描述。
标注责任方应描述标注与质控流程中的人员分工、决策机制(审核、仲裁、分歧处理)、人员比对。
4.2.3 标注工具
标注责任方应对标注过程使用的硬件、软件、平台等进行描述,如设备的型号,软件的名称、型号、版
本号、功能、参数设置、平台名称、访问地址等;如采用算法提供辅助标注,应描述算法性能指标与验证
方法。
4.2.4 标注环境
标注责任方应分析标注环境对标注人员、标注过程、数据质量、标注工具的影响,描述对标注环境的
要求,如温湿度、照明条件、噪声干扰等。
4.2.5 数据
标注责任方应对标注过程输入、输出的数据进行描述,包括:
---待标注数据的适用范围、质量要求和选择依据;
---标注对象的定义和示例,如阳性样本、阴性样本、目标区域、非目标区域、主要征象、次要征象、
干扰项、疑难情形示例等;
---标注结果、测量结果的存储格式、预览方法、颗粒度、精度等。
标注责任方应描述数据整理方案,如数据清洗、数据查重等。
对来自实验室测量的数据,标注责任方应描述测量方法、测量装置、测量条件及人员等。
对于来自仿真合成的数据,标注责任方应描述计算过程及确认方式。
注:附录A给出了标注任务说明文档的示例。
5 数据标注质量特性
5.1 准确性
标注责任方应根据标注结果的形式,声称标注结果的准确性。
如适用,在具体标注场景下,可使用下列指标:
---检出:召回率、精确度;
---分类:灵敏度、特异度、准确率;
---分割:Dice系数、交并比、Hausdorff距离;
---测量、计数:绝对误差、相对误差;
---动态曲线评估:Pearson相关系数、2-范数误差。
5.2 一致性
标注责任方应声称标注过程各个环节输入输出数据、信息的内部一致性,包括人员信息、标注结果、
原始数据。
标注责任方应声称标注人员之间的一致性,如:
分类任务:使用Kappa系数描述人员之间的一致性。
5.3 精度
对于可定量描述的标注结果,标注责任方应声称标注结果的精度。
5.4 可理解性
标注责任方应说明标注结果能被授权用户理解的程度,并以书面形式展示可验证的证据。
5.5 可访问性
标注责任方应陈述标注结果可被授权用户访问的程度,并以书面形式展示可验证的证据。
5.6 可移植性
标注责任方应陈述标注结果能被安装、替换或从一个系统移动到另一个系统中,并保持已有质量的
属性的能力。
5.7 保密性
标注责任方应陈述确保标注结果安全的措施,并以书面形式展示可验证的证据。
5.8 可追溯性
标注责任方应陈述标注任务可被追溯和记录的程度,如:
a) 标注任务、质控流程涉及的人员信息,如标注任务创建者、管理者、标注人员、审核人员、仲裁人
员等;
b) 标注任务包含的操作信息,如初始标注、比对、合并、补充、修改、删除、审核、仲裁等;操作信息
也包括标注数据的流转动作,如传输、复制等;
c) 标注工具信息,如名称、型号规格、完整版本、制造商、运行环境、软件确认等;
d) 标注任务的时间信息,如每个样本完成标注、审核、仲裁的时间节点。
6 标注与质控流程
6.1 业务架构
标注责任方应根据数据流向和人员分工,描述标注与质控的业务架构。标注责任方应根据业务架
构所描述的输入输出节点,保存相应的标注结果、人员操作记录。标注责任方应明确在哪些条件下对标
注结论进行审核、仲裁。当初级标注人员的结论一致时,宜对标注结论进行抽样审核。当初级标注人员
的结论不一致时,宜提交仲裁。
注:附录B给出了具体示例。
6.2 过程组织
6.2.1 任务生成
标注责任方应根据标注任务的定义,收集和整理待标注的数据,准备标注工具和环境,选拔标注人
员,明确标注流程、决策机制与工作量,围绕标注规则开展培训,形成记录。
如适用,标注责任方应记录标注任务的创建者、管理者信息。
6.2.2 任务分配
标注责任方应为标注人员分配标注工具和操作场地,设置操作权限,下发待标注的数据。
6.2.3 任务实施
标注人员应根据标注规则执行标注任务。
标注责任方宜对标注进度进行监控,对标注人员的任务进行调度,确保初级标注人员、审核人员、仲
裁人员的协调性。
6.2.4 质量控制
在标注过程中,标注责任方应对标注人员的标注质量进行监督,评估标注人员的表现,考虑重复性
指标和准确性指标。当标注人员表现出现显著下降时,标注责任方应对标注人员进行休整、培训和再
评估。
对重复性指标的评价可采用埋题验证的方式,统计同一个标注人员在每次连续标注过程中对同一
个数据的标注结果,计算重复标注一致或误差在允许范围内的样本在重复标注样本中的比例。
注1:例如每完成20张糖网图像的分类标注后,随机抽选其中一张重新标注。
对准确性指标的评价可对比标注人员与仲裁结论,计算仲裁人员认为正确的初级标注样本比例。
注2:例如每完成20张糖网图像的标注,随机抽选一张由仲裁人员仲裁和对比,以统计准确性。
6.2.5 安全管理
标注责任方应执行如下安全管理措施:
a) 在标注前,标注责任方应确保待标注数据已完成数据脱敏;应建立待标注数据的独立备份,确
保该备份不被修改、删除;
b) 执行数据标注、计算和存储的设备在停用、退役或退出标注任务前应将其中所有数据彻底删
除,并无法恢复;
c) 标注责任方应保证标注过程的网络安全,如采用防火墙、边界防护、入侵防护等安全措施。
7 标注工具
7.1 功能
7.1.1 处理对象
标注工具宜明确定义处理对象的范围,包括数据采集方式、存储格式。
a) 根据数据的采集方式,处理对象可分为:
---影像数据:CT、MR、PET、X线、乳腺钼靶、超声、内窥镜、病理等;
---信号数据:心电图(ECG)、脑电图(EEG)、肌电图(EMG)、心肺音等;
---文本数据(如适用):门急诊记录、住院记录、实验室记录、用药记录、手术记录、随访记录。
b) 根据数据存储格式,处理对象可分为:
---图像格式:Dicom、Dicom-RT、png、jpg、tif等;
---信号格式:xml、HL7等;
---视频格式:avi、mp4等;
---文本格式(如适用):txt、doc、pdf等;
---其他格式:制造商自定义的数据格式。
7.1.2 数据显示
标注工具应具有数据显示界面,符合以下要求:
a) 标注工具宜支持数据读取范围内的数据显示功能,如:
---Dicom格式数据:序列翻页、窗宽窗位调整、多窗格显示、平移、整体缩放、反色、局部放大、直线
测量、角度测量、图像旋转/翻转、序列播放、恢复原图、影像渲染、图像增益、动态范围等;
---视频格式数据:视频播放暂停、帧率调整、整体缩放、局部放大、对比度调整、饱和度调整等;
---图片格式数据:平移、旋转、整体缩放、局部放大、对比度调整、饱和度调整等;
---文本格式数据:字体大小调整、字体类型调整、局部放大、单栏显示、多栏显示、整页显示、滚动
显示等。
b) 数据显示界面应防止数据的未授权获取,如复制、下载、另存、打印等。
7.1.3 数据标注
标注工具宜提供标注任务需要的标注功能,如:
---提供标注工具,支持基本标注任务类型,包括分类标注、分割标注和检出标注等;
---分类标签可根据标注任务的颗粒度进行设置,如病例维度、检查维度、图像维度、病灶维度等;
---支持标签模板配置及版本管理,包括标签模板创建、查看、删除、修改、组合等;
---支持标注质控量化方法配置,包括全检、抽检等;
---如适用,支持自动标注功能、半自动标注功能及其人工审核功能,对自动标注结果进行特殊标
记或提示;允许审核人员对自动标注结果进行编辑、修改、保存等操作。对不具有审核权限的
人员限制其对自动标注结果进行操作。
注:附录C给出了AI辅助标注性能评价的一般思路。
7.1.4 结果导入导出
标注工具及平台宜提供标注结果的导入导出功能,如:
---支持标注结果的查看、筛选、统计、下载和导出等操作;
---支持标注结果条件筛选功能,如数据类型、标注结果类型、标注人员、标注进度等;
---支持标注结果统计功能,如标注数量、标注时间范围等;
---支持标注结果下载和导出内容自定义配置,包括项目、病人、数据、标签等;
---支持标注结果下载和导出文件数据格式可选的功能;
---支持标注结果导入功能,应建立数据与标注结果的关联,对格式不符、未匹配或者重复匹配的
标注结果进行提示;
---支持结果导入导出权限设置,包括人员权限、数据权限、项目权限等配置。
7.1.5 进度显示
标注工具及平台宜提供具有显示标注任务进度的能力,如:
---支持数据标注状态显示,包括未标注和已标注等;
---支持项目或者数据集标注进度统计与显示功能,包括百分比显示、柱形图显示、饼图显示等;
---支持条件检索的标注进度统计与显示功能,检索条件包括项目、数据集、数据类型、标注人
员等。
7.1.6 任务调度
标注工具及平台宜具备标注任务调度功能,如:
---支持标注任务的创建、查看、暂停、恢复、重启、删除、修改及相应权限配置;
---支持标注任务的权限配置,包括人员权限、数据权限、项目权限、操作流程权限等配置;
---支持标注任务的逻辑配置,包括交叉标注方法、仲裁标注条件与方法、审核标注条件与方法等。
7.1.7 审核与仲裁
对于需要审核、仲裁的标注任务,标注工具及平台宜支持自定义配置功能,如:
---支持仲裁条件与方法的自定义配置,包括仲裁触发条件、仲裁人员设置、仲裁数据设置;
---支持审核条件与方法的自定义配置,包括审核触发条件、审核人员设置、审核数据设置。
7.1.8 过程记录
标注工具及平台宜具有过程记录功能,符合5.8可追溯性的要求。
7.1.9 安全功能
标注工具应具备以下安全功能:
a) 数据传输安全:数据传输应保证数据以安全的方式传输给指定的对象,如使用加密技术、身份
验证技术、数据完整性校验技术等;
b) 数据存储安全:标注工具应具备安全措施保障数据安全,如加密存储;原始数据和标注结果应
分开存储为原始数据文件和标注数据文件;
c) 身份鉴别:应对用户进行标识并对标识信息进行管理和维护;应确保用户在信息系统生存周期
内的唯一性,应在用户提出动作要求前成功地进行身份鉴别;应定期更换用户登录密码;
d) 访问控制:应具备访问控制策略并实现策略控制下主体与客体间操作的控制。
8 评价方法
8.1 标注任务说明文档
查阅标注责任方提供的文件,应满足第4章的要求。
8.2 标注任务质量特性
8.2.1 准确性
在具体标注场景下,可按YY/T 1833.2-2022第6章对标注结果进行抽样;通过专家论证、专家比
对、定量计算等方式对抽样样本或全体样本进行评价,计算标注责任方规定的指标,应满足5.1的要求。
8.2.2 一致性
通过抽样检验的方式,检查标注结果与过程文件的一致性,应满足5.2的要求。
8.2.3 精度
根据标注责任方的声称,检查标注结果包含的数据定量特征,应满足5.3的要求。
8.2.4 可理解性
从语言、符号和(计量)单位等方面对标注结果进行预览、操作,检查用户能否预览和理解标注信息
的内容,应满足5.4的要求。
8.2.5 可访问性
编写测试用例,进行实际操作,验证用户能否对标注结果进行访问,应满足5.5的要求。
8.2.6 可移植性
对照标注责任方的陈述,对标注结果的安装、替换、转移进行实际操作,验证不同操作环境下标注信
息的性质是否保持不变,应满足5.6的要求。
8.2.7 保密性
检查原始数据及标注结果的授权访问机制、隔离保护机制等,应满足5.7的要求。
8.2.8 可追溯性
对标注过程产生的记录进行检查,应满足5.8的要求。
8.3 标注与质控流程
对标注流程文件进行检查,应满足第6章的要求。
8.4 标注工具
编写测试用例,进行实际操作验证,应满足第7章的要求。
附 录 A
(资料性)
标注任务描述示例
A.1 可穿戴心电
A.1.1 标注任务分类
本标注任务根据数据模态属于生理信号标注,数据模态为单导联可穿戴心电波形信号;执行主体为
人工标注。本标注任务属于结构化标注。标注结果的存储格式为 HL7。标注结果给出信号质量的分
类,作为参考标准。
A.1.2 标注规则
本标注任务的标注对象是心电信号的质量(每10s一段心电信号的整体质量)。心电信号质量的
定义和标注规则由心电图临床专家和工程技术专家组成的专家组依据临床文献和讨论给出,专家职称
均为副高级以上,其中医疗系列专家从事临床工作的年限为10年以上,从事数据标注相关工作的年限
为1年以上。标注结果包含两种分类,即“信号质量好”和“信号质量差”。“信号质量好”的定义为心电
信号观察窗口中QRS波群清晰;几乎不存在基线漂移,即基线漂移幅度不超过信号幅值1/3,且不影响
QRS波判断;......
|