主页 购物车 询价 关于我们
www.GB-GBT.com
收录标准: 221989 (2026-04-20) 搜索

YY/T 1833.2-2022 相关标准英文版PDF

标准号码价格美元第2步(购买)交付天数标准名称
YY/T 1833.2-2022 350 YY/T 1833.2-2022 3秒自动 人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求
   
基本信息
标准编号 YY/T 1833.2-2022 (YY/T1833.2-2022)
中文名称
英文名称 Artificial intelligence medical device - Quality requirements and evaluation - Part 2: General requirements for datasets
行业 医药行业标准 (推荐)
中标分类 C30
字数估计 23,262
发布机构 国家药品监督管理局

YY/T 1833.2-2022: 人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求 CCSC30 中华人民共和国医药行业标准 人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求 2022-07-01发布 2023-07-01实施 国家药品监督管理局 发 布 目次 前言 Ⅰ 引言 Ⅱ 1 范围 1 2 规范性引用文件 1 3 术语和定义 1 4 数据集说明要求 3 5 数据集质量要求 7 6 数据集质量符合性评价 10 附录A(规范性) 数据集类型说明 14 附录B(资料性) 数据筛选与清洗说明 15 参考文献 17 前言 本文件按照GB/T 1.1-2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定 起草。 本文件是YY/T 1833《人工智能医疗器械 质量要求和评价》的第2部分。YY/T 1833已经发布 了以下部分: ---第1部分:术语; ---第2部分:数据集通用要求。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由国家药品监督管理局提出。 本文件由全国人工智能医疗器械标准化技术归口单位归口。 本文件起草单位:中国食品药品检定研究院、解放军总医院、上海长征医院、中国科学院深圳先进技 术研究院、华为技术有限公司、飞利浦(中国)投资有限公司、上海西门子医疗器械有限公司、杭州依图医 疗技术有限公司、腾讯医疗健康(深圳)有限公司、上海联影智能医疗科技有限公司、广州柏视医疗科技 有限公司、美中互利医疗有限公司、慧影医疗科技(北京)有限公司、北京安德医智科技有限公司、广州市 妇女儿童医疗中心、中山大学中山眼科中心。 本文件主要起草人:王浩、刘士远、何昆仑、郑海荣、李佳戈、詹翊强、孟祥峰、萧毅、葛鑫、刘东泉、 颜子夜、钱天翼、丁子建、陆遥、任海萍、柴象飞、周娟、王珊珊、张培芳、梁会营、林浩添。 引 言 近年来,人工智能医疗器械不断发展,成为医疗器械标准化领域的一个新兴方向。我国已初步建立 人工智能医疗器械标准体系。在该标准体系中,YY/T 1833《人工智能医疗器械 质量要求和评价》是 基础通用标准,为开展细分领域的标准化活动提供指导,拟由八个部分组成。 ---第1部分:术语。目的在于为人工智能医疗器械的质量评价活动提供术语。 ---第2部分:数据集通用要求。目的在于提出数据集的通用质量要求与评价方法。 ---第3部分:数据标注通用要求。目的在于提出数据标注环节的质量要求与评价方法。 ---第4部分:可追溯性通用要求。目的在于提出人工智能医疗器械可追溯性的通用要求及评价 方法。 ---第5部分:算法安全要求。目的在于规范人工智能医疗器械采用的人工智能算法的安全要求 与评价方法。 ---第6部分:环境要求。目的在于规范人工智能医疗器械的运行环境条件要求与评价方法。 ---第7部分:隐私保护要求。目的在于加强人工智能医疗器械保护受试者隐私的能力。 ---第8部分:伦理要求。目的在于从技术层面实现人工智能伦理的要求,保护人的权益。 本文件为其他部分提供数据集质量评价相关的工作思路。 数据集是人工智能医疗器械研发、训练、测试、质控等环节常用的资源,对产品质量有重要影响。本 文件作为YY/T 1833《人工智能医疗器械 质量要求和评价》的第2部分,把数据集纳入产品质量评价 体系的一部分,也为后续制定细分领域的数据集专用要求提供依据。 人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求 1 范围 本文件规定了人工智能医疗器械全生命周期使用的数据集的通用质量要求和评价方法。 本文件适用于人工智能医疗器械研发、生产、测试、质控等环节使用的数据集的开发与评价。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文 件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于 本文件。 GB/T 2828.4 计数抽样检验程序 第4部分:声称质量水平的评定程序 GB/T 2828.11 计数抽样检验程序 第11部分:小总体声称质量水平的评定程序 GB/T 6378.4 计量抽样检验程序 第4部分:对均值的声称质量水平的评定程序 YY/T 1833.1 人工智能医疗器械 质量要求和评价 第1部分:术语 3 术语和定义 YY/T 1833.1界定的以及下列术语和定义适用于本文件。 3.1 关于规定的一个或一组要求,或者仅将单位产品划分为合格或不合格,或者仅计算单位产品中不合 格数的检验。 [来源:GB/T 2828.1-2012,3.1.3] 3.2 被检的单位产品特性能用连续尺度进行度量的质量特性。 [来源:GB/T 8054-2008,3.1.3] 3.3 按规定的抽样方案从批中随机抽取一定数量的单位产品。用测量、试验或其他方法取得它们的质 量特性值,与质量要求进行对比,并判断该批产品能否接收的过程。 [来源:GB/T 8054-2008,3.1.4] 3.4 批 lot 按抽样目的,在基本相同条件下组成的总体的一个确定部分。 [来源:GB/T 10111-2008,3.1.4] 3.5 准确度 accuracy 对数据内容正确、形式有效的一种度量。 [来源:GB/T 11457-2006,2.22,有修改] 3.6 精度 precision 对于说明的量的精确或差异的程度。例如,2位十进制数字对5位十进制数字。 [来源:GB/T 11457-2006,2.1160] 注:含义有别于算法性能指标的精确度。 3.7 一致性 consistency 在数据集的各阶段、部分之间,一致、标准化、无矛盾的程度。 [来源:GB/T 11457-2006,2.320,有修改] 3.8 可得性 availability 数据集在投入使用时可操作或可利用的程度。 [来源:GB/T 11457-2006,2.115,有修改] 3.9 信息安全[性] informationsecurity 对数据进行的保护,以防止其受到意外的或蓄意的存取、使用、修改、毁坏或泄密。 安全性也涉及对受试者隐私、元数据、通信以及计算机安装的物理保护。 [来源:GB/T 11457-2006,2.1420,有修改] 3.10 可移植性 portability 数据集能被安装、替换或从一个系统移动到另一个系统中,并保持已有质量的属性的程度。 3.11 对某数据集的设计、制造负有责任的实体。 [来源:GB 9706.1-2020,3.101,有修改] 3.12 离群值 outlier 一组数据中被认为与该组其他数据不一致的观测值。 注:离群值可能来源于不同的总体,或由于不正确的记录或其他误差的结果。 [来源:CNASGL-002-2018,3.6,有修改] 3.13 数据集说明 datasetdescription 陈述数据集各种性质的文档。 4 数据集说明要求 4.1 数据集描述 4.1.1 数据集整体描述 4.1.1.1 数据集类型 数据集说明应按照附录A的要求,注明数据集的类型。 4.1.1.2 数据集形态 数据集说明应描述数据集的数据模态、数据格式、数据量、存储方式。 4.1.1.3 数据集层次 数据集说明应描述数据集的数据层次、子集分解和组合变化。 4.1.1.4 应用场景 数据集说明应描述数据集预期模拟的应用场景。 4.1.1.5 版本控制 数据集说明应描述数据集的版本号、存储信息、说明文档编制时间、使用状态。 4.1.1.6 数据集更新 对于动态数据集,数据集说明应描述新增数据的入组规则和数据退役规则。 4.1.1.7 文档管理 数据集说明宜通过计算机技术(如软硬件、普通网络、云服务),对文档内容进行发布、交换、管理和 查询。 4.1.1.8 元数据属性 数据集说明宜描述数据集元数据属性,如数据集名称、标识符、发布方、语种、分类类目名称、摘 要等。 4.1.1.9 数据元属性 数据集说明宜描述数据元的共用属性、专用属性,如数据集版本、注册机构、分类模式、主管机构等。 注:注册机构、主管机构定义见 WS/T 303-2009。 4.1.1.10 标注信息 数据集说明应描述数据集是否具有标注信息。 4.1.2 数据采集信息 4.1.2.1 合规性陈述 数据集说明应提供数据来源的合规性陈述。 4.1.2.2 隐私保护 数据集说明应描述用于保护受试者隐私的技术手段,如数据去标识化、数据匿名化等。适当时,数 据集说明文档应描述数据去标识化或者数据匿名化的规则。 4.1.2.3 多样性 数据集说明应提供数据来源多样性的描述,如人群、采集场所、采集设备、参数设置、操作人员资质、 采集流程、采集时间等。 4.1.2.4 数据采集依从原则 数据集说明应提供数据采集依据的法规、技术标准、临床规范、专家共识或其他参考文献。 4.1.2.5 数据筛选 数据集说明应描述数据的录入、排除标准,以及进行数据筛选的方法,如人工清洗、自动清洗。 注:示例见附录B。 4.1.3 数据预处理 适当时,数据集说明应描述数据预处理的操作步骤和内容。 4.1.4 数据集标注 4.1.4.1 数据集标注依从原则 数据集如具有标注信息,数据集说明应描述数据集标注依据的法规、技术标准、临床规范、专家共识 或其他参考文献。 4.1.4.2 参考标准 数据集如具有标注信息,数据集说明应描述数据集参考标准的制定规则、范围、存储格式与数据规 范。如果参考标准是可验证的,应描述参考标准的验证方式。 4.1.4.3 标注流程 数据集如具有标注信息,数据集说明应描述数据标注与质控流程,明确决策机制。在多人标注、多 重标注的情况下,应描述标注分歧的仲裁机制。 4.1.4.4 其他标注信息 数据集如具有标注信息,数据集说明应描述除参考标准外的其他标注信息的范围、数据规范和存储 格式。 4.1.5 数据集存储信息 数据集说明宜描述数据存储信息,如数据集存储方式与存储路径、安全控制、备份、恢复的说明。在 数据集使用云服务存储的情况下,应提供云服务的提供商名称和资质、访问路径、使用权限说明等。 4.1.6 数据集用户访问 4.1.6.1 访问控制 数据集说明应描述用户访问控制机制,如用户类型、权限分配、授权机制。 4.1.6.2 访问条件 数据集说明应描述访问数据集需要的条件,如软硬件配置、访问方式、数据接口、协议、工具等。 4.1.6.3 可视化 数据集说明宜描述数据集信息的可视化呈现方式。 4.1.7 开发管理 数据集说明宜描述数据集开发过程依从的管理标准。 4.2 数据集标识 4.2.1 标识 数据集应显示唯一的标识,包含数据集名称、版本号、数据集制造责任方信息,可以随附文件的形式 给出,可在数据集说明文档中进行详细描述。若数据集制造责任方向用户提供数据集管理软件/平台, 应支持数据集标识的预览和查询。 数据集如发生变更,标识应同步变更。 当数据集作为医疗器械功能实现的一部分时,数据集标识可沿用产品标识。 4.2.2 数据集制造责任方信息 数据集说明宜包含数据集制造责任方的单位名称和联系方式。适当时,应陈述数据集制造责任方 是否对数据集的使用提供技术支持和维护,以及技术支持和维护的具体内容。 4.2.3 文件命名与编码 数据集说明应陈述数据集中的文件命名和编码规则。 4.3 数据集质量特性描述 4.3.1 完整性 4.3.1.1 准确性 数据集说明应陈述数据与真实值一致的程度,可按照数据采集、信息记录、数据标注等环节展开,并 以书面形式提供可验证的指标。 4.3.1.2 完备性 数据集说明应陈述数据集包含的信息能覆盖数据集的预期用途的程度,并以书面形式展示可验证 的证据。 4.3.2 唯一性 数据集说明应陈述数据集、子集和数据在何种程度上是唯一的,并以书面形式提供可验证的指标。 4.3.3 一致性 数据集说明应陈述数据之间一致的程度,考虑内部一致性和外部一致性,并以书面形式提供可验证 的指标。 4.3.4 确实性 数据集说明应陈述数据集在何种程度上是真实和可信的,包括数据、元数据的获取和处理,并以书 面形式展示可验证的证据。 4.3.5 时效性 数据集说明应陈述数据集开发阶段的各个环节所需时限符合预期的程度,考虑预处理、清洗、标注 等,并以书面形式提供可验证的指标。 4.3.6 可访问性 数据集说明应陈述数据集可被访问的程度,并以书面形式展示可验证的证据。 4.3.7 依从性 数据集说明应陈述数据集依从的标准规范、专家共识、操作规程或其他参考文献。 4.3.8 保密性 数据集说明应描述信息安全、数据保密相关的措施,并以书面形式展示可验证的证据。 4.3.9 资源利用性 数据集说明应陈述执行数据集相关任务需要的资源消耗,并以书面形式展示可验证的依从性证据, 如访问、读取数据、预览、检索等任务需要的软件、硬件、网络配置。 4.3.10 精度 数据集说明应描述数据定量信息与真实值的接近程度,考虑数据元、元数据、数据标注结果,并以书 面形式提供可验证的指标,如空间/时间分辨率、有效数字、最小测量单位。 4.3.11 可追溯性 数据集说明应描述数据可被追溯的程度,考虑数据采集历史、数据标注历史、数据访问踪迹和数据 变更踪迹,并以书面形式展示可验证的证据。 4.3.12 可理解性 数据集说明应使用数据集的用户可理解的术语,对数据元、元数据和标注结果的含义提供解释,并 以书面形式展示可验证的证据。 4.3.13 可得性 数据集说明应陈述数据集能被授权用户使用和检索的程度,并以书面形式展示可验证的证据。 4.3.14 可移植性 数据集说明应陈述数据集能被安装、替换或从一个系统移动到另一个系统中,并保持已有质量的属 性的能力,考虑数据安装、替换、移动的效率,并以书面形式展示可验证的证据。 4.3.15 可恢复性 数据集说明应陈述数据集可被恢复的程度,并以书面形式展示可验证的证据。数据集说明可提供 用于数据恢复的措施。数据集说明可提供防止数据集使用过程出现中断、失效的措施。 4.3.16 代表性 数据集说明应对样本的组成、比例、人群分布特征、数据的多样性和接近应用场景的程度开展分析, 并以书面形式提供可验证的指标。 5 数据集质量要求 5.1 概述 本文件所述内容关注数据集的质量特性、整体风险等要素,宜根据数据集的预期用途、应用场景对 数据集开展质量评价,形成技术报告,作为对数据集质量的验证。 5.2 质量特性 5.2.1 完整性 5.2.1.1 准确性 数据集应符合数据集说明有关准确性的陈述,如: a) 记录信息的准确性; b) 文字描述准确、清晰、无歧义; c) 数据标注的准确性; d) 采集设备的有效性; e) 人员操作的有效性; f) 数据形式的合理性。 5.2.1.2 完备性 数据集应包含实现数据集预期用途、满足应用场景需要的信息,如: a) 数据结构与格式应支持数据元、标注信息、元数据的保存、传输与访问,避免信息空白、遗漏或 丢失; b) 对不可避免的缺失数据、离群值,应给出明确的处理方式,证明应用场景的合理性,对相关数据 元加以标识; c) 元数据应描述数据集标识信息、内容信息、数据质量特性等相关信息; d) 数据包含的信息应支持数据标注与参考标准溯源的需要。 5.2.2 唯一性 同一数据集或子集内的数据元应是唯一的。同一数据集的各个子集应是可区分的。同一数据集内 的数据唯一性宜以受试者个体为识别特征,对同一个体的不同时间、空间的数据应明确描述处理方法。 5.2.3 一致性 数据集应符合数据集说明有关一致性的陈述,包括内部一致的程度和外部一致的程度。 内部一致性是指相同来源数据之间的相关性,如: a) 同一数据元在数据集生存周期不同阶段应保持一致; b) 数据的特征应保持一致; c) 数据的采集、预处理、标注方法应保持一致; d) 原始记录、中间记录与最终记录应保持一致。 外部一致性是指不同来源数据之间的相关性,如: a) 不同来源的数据应在数据特征方面保持一致; b) 离群值应是可解释的; c) 不同来源的数据在采集、标注环节应依从相同的法规、技术标准、医学规范、其他文献要求。 5.2.4 确实性 数据集应符合数据集说明有关确实性的陈述,如: a) 数据应来自真实的临床数据采集流程;适当时,数据采集涉及的设备、人员、方法应符合技术标 准、临床规范或专家共识; b) 数据扩增、数据合成活动和结果应是可溯源和可解释的; c) 元数据应如实对数据进行描述。 5.2.5 时效性 数据的采集、标注、流转、归档、变更等活动的时限应符合数据集说明有关时效性的陈述。动态更新 的数据集应明确数据的更新周期、更新方法和更新比例。若数据涉及临床诊断、治疗中的时序过程,应 证明数据在临床时效上的合理性。 5.2.6 可访问性 数据集应满足数据集的预期用途和应用场景范围内的访问需要。 5.2.7 依从性 数据集应符合数据集说明有关依从性的陈述。 5.2.8 保密性 数据集应符合数据集说明有关保密性的陈述,采取措施确保其只能被授权用户访问。 隔离使用的数据集应具有数据集授权访问机制、隔离保护机制,应具有防止数据泄露、数据篡改、数 据丢失的措施,如数据匿名化、物理隔离、数据审计等。 5.2.9 资源利用性 数据集的处理和使用应符合数据集说明有关资源利用性的陈述。 5.2.10 精度 数据集应符合数据集说明文档有关精度的陈述。 5.2.11 可追溯性 数据集应符合数据集说明有关可追溯性的陈述,具有相关记录,如: a) 原始数据来源、元数据来源、合规性证明; b) 数据采集活动记录; c) 人员管理记录; d) 数据标注流程记录; e) 盲态管理记录; f) 数据流通记录; g) 数据质疑、审计、停用、纠正记录; h) 标注工具、平台使用记录; i) 数据集标注结果的统计信息查询,包括标注进展、标签统计、标注者进展统计、难例集等; j) 数据服务异常与故障记录; k) 数据维护与备份记录; l) 数据更新记录; m) 云服务提供商名称、联系方式、云服务类型等。 5.2.12 可理解性 数据集应符合数据集说明有关可理解性的陈述。 5.2.13 可得性 数据集应符合数据集说明文档有关可得性的陈述。 5.2.14 可移植性 数据集应符合数据集说明有关可移植性的陈述。如果数据集允许在不同的平台和系统下使用,数 据质量不应随平台和系统发生变化。 5.2.15 可恢复性 用于保持数据集质量并抵御失效事件的措施应符合数据集说明有关可恢复性的陈述。 5.2.16 代表性 数据集的数据特征层次、流行病学统计、样本来源多样性、数据多样性等应符合数据集说明有关代 表性的陈述。 5.3 数据集风险分析 5.3.1 选择偏倚 数据集制造责任方应对数据集的代表性(受试者人群、采集场所、设备选择、参数设置等能否代表临 床实际)进行分析。 5.3.2 覆盖偏倚 数据集制造责任方应对数据集病种组成能否覆盖应用场景下的目标人群全部情形(单发、多发、并 发、复杂病理等)进行分析。 5.3.3 参考标准偏倚 数据集制造责任方应验证数据标注结果或参考标准的确立过程,分析参考标准偏倚。 5.3.4 验证偏倚 数据集制造责任方应描述参考标准的验证方法,分析数据标注过程与临床诊断过程的关联、差异和 影响。 5.3.5 标注顺序偏倚 数据集制造责任方应描述数据标注流程设计,分析标注者分工、标注者工作顺序、记忆效应对标注 结果的影响。标注过程如使用计算机辅助识别(CAD)工具,应评估由CAD引起的偏倚情况,给出预防 措施,避免CAD对人的干扰。 5.3.6 情景偏倚 数据集制造责任方应描述数据集患病率与临床目标人群患病率的差异。 5.3.7 其他偏倚 数据集制造责任方宜对其他偏倚进行分析,如分配偏倚、混杂偏倚等。 6 数据集质量符合性评价 6.1 通则 数据集质量符合性评价包括对数据集说明、质量特性和数据集风险分析文档的评价,评价流程如图 1所示。测试前,应提供数据集、原始数据、元数据、标注工具、存储介质和其他工具的访问权限。数据 集制造责任方可提供一个或多个文件,作为数据集说明;如提供多个文件,应建立索引。测试环境应符 合数据集说明的要求。对数据集的各质量特性,可采用全体验证或抽样检验的方式,形成抽样样本集, 作为评价对象。评价过程编写的测试用例宜包含测试目标、测试用例唯一标识、测试对象、测试步骤、测 试环境、测试边界、预期的响应或产出、测试结果解释、用于判断测试用例是否通过的准则。数据集制造 责任方应提交数据集风险分析文档,可参照YY/T 0316-2016进行编写。 图1 数据集质量评价流程图 表1给出了各质量特性推荐使用的评价方式。抽样检验方案宜根据具体质量特性的类型制定。属 性数据宜采用计数型抽样检验,数据集制造责任方应以书面形式提供声称质量水平、使用方风险、生产 方风险等指标,具体抽样方法按照GB/T ......