本指导原则是对肺结节CT图像辅助检测软件的一般要求,申请人应依据产品的具体特性确定其中的内容是否适用。若不适用,需具体阐述其理由及相应的科学依据,并依据具体的产品特性对注册申报资料的内容进行充实和细化。
本指导原则是供注册申请人和技术审评人员使用的指导性文件,但不包括注册审批所涉及的行政事项,亦不作为法规强制执行,应在遵循相关法规的前提下使用本指导原则。如果有能够满足相关法规要求的其他方法,也可以采用,但是需要提供详细的研究资料和验证资料。
本指导原则是在现行法规和标准体系以及当前认知水平下制定的,随着法规和标准的不断完善,以及科学技术的不断发展,相关内容也将适时进行调整。
本指导原则是人工智能医疗器械指导原则体系的重要组成部分,基于人工智能医疗器械审评指导原则的通用要求,明确了肺结节CT图像辅助检测软件的具体要求。
本指导原则适用于肺结节CT图像辅助检测软件的产品注册。按现行《医疗器械分类目录》,该类产品分类编码为21-04-02,管理类别为三类。设备中所含肺结节CT图像辅助检测功能也适用于本指导原则。采用非人工智能算法的肺结节CT图像辅助检测软件可参照本指导原则执行。
(一)监管信息
明确申请表中产品名称、管理类别、分类编码、型号规格、产品组成等信息。
1.产品名称
产品命名需符合《医疗器械通用名称命名规则》的要求。根据产品预期用途可采用肺结节CT图像辅助检测软件进行命名。
2.分类编码
依据《医疗器械分类目录》,申报产品分类编码为21-04-02。按第三类医疗器械管理。
(二)综述资料
1. 产品描述
1.1器械及操作原理描述
1.1.1工作原理
需详述产品的工作原理,例如:基于深度学习技术对医学影像进行分析处理、对肺结节进行分割、检测、自动识别等。
1.1.2结构组成
结构组成明确交付内容和功能模块,其中交付内容包括软件安装程序、授权文件、外部软件环境安装程序等软件程序文件,功能模块包括客户端、服务器端(若适用)、云端(若适用),若适用注明选装、模块版本。基于人工智能算法(如深度学习)的功能模块,需在模块名称中予以注明,如深度学习。
1.1.3产品描述
需明确临床工作流程,工作流程中使用申报产品的时间(如在医生阅片前使用)。
肺结节检测当前的临床实践(基于参考文献)。
结合用户界面图示详细介绍技术要求中对应的临床功能、量化分析的具体内容、自动操作、手动及半自动操作/预定义的默认设置。需明确软件输出报告、特殊声称(如用于检测小于4mm结节)、服务器部署(局域网、云端)、产品接口和联合使用设备等信息。
1.2 型号规格
需明确申报产品的型号规格及发布版本。产品型号规格及其划分,如同一个注册单元包含多个型号规格,需提供产品型号规格区分列表或配置表。
1.3研发历程
阐述申请注册产品的研发背景和目的。如有参考的同类产品或前代产品,需提供同类产品或前代产品的信息,并说明选择其作为研发参考的原因。
1.4与同类和/或前代产品的参考和比较
同一制造商生产的改良器械,建议直接和本公司已获批准的器械的算法性能进行比较(即,使用相同的评估过程和测试数据集比较性能)。
2.适用范围和禁忌证
(1)适用范围
适用范围需明确处理对象、核心功能、适用人群、目标用户、临床用途。
例如,用于胸部CT图像的显示、处理、测量和分析,可对4mm及以上肺结节进行自动识别并分析结节影像学特征,供经培训合格的医师使用,不能单独用作临床诊疗决策依据。
(2)预期使用环境
需明确设备使用场所和使用环境要求。
设备使用场所包括:医疗机构机房等。
使用环境要求需至少包括:推荐的硬件使用的适宜温度、湿度、大气压、光照条件。
(3)适用人群
需详述产品的适用人群、感兴趣器官/疾病/病灶/异常、以及预期使用该产品的目标用户。如,可供18岁及以上门诊及体检人群使用,供经培训合格的放射科医师、专科医师使用。
(4)禁忌证
需明确产品临床应用的禁忌证以及器械限制,包括导致器械无效且不应使用的疾病、病症、异常。
(三)非临床资料
1.产品风险管理资料
依据YY/T 0316《医疗器械风险管理对医疗器械的应用》,提供产品风险管理报告。
申请人需重点说明:申报产品的研制阶段已对有关可能的危害及产生的风险进行了估计和评价,针对性地实施了降低风险的技术和管理方面的措施。产品性能测试对上述措施的有效性进行了验证,达到了通用和专用标准的要求。申请人对所有剩余风险进行了评价,全部达到可接受的水平。产品风险分析资料需为申请人关于产品安全性的承诺提供支持。
风险管理报告一般包括以下内容:
(1)申报产品的风险管理组织。
(2)申报产品的组成。
(3)申报产品符合的安全标准。
(4)申报产品的预期用途,与安全性有关的特征的判定。
(5)对申报产品的可能危害作出判定(见附件1)。
(6)对所判定的危害采取的降低风险的控制措施。
(7)对采取控制措施后的剩余风险进行估计和评价。
2.产品技术要求及检验报告
2.1产品技术要求
依据《医疗器械产品技术要求编写指导原则》进行编制。
2.1.1规格信息
明确软件发布版本和版本命名规则。软件版本命名规则原则上需涵盖算法驱动型更新和数据驱动型更新,明确并区分重大软件更新和轻微软件更新,其中重大软件更新列举常见典型情况。
明确不同型号间产品差异。
2.1.2性能指标
明确产品处理对象,以及数据接口信息,包括成像模态(如计算机体层摄影)和特定软硬件名称及型号(如适用)。
明确软件功能及指标,如输入图像的质量要求、结节检出、结节密度分类类别(如实性、亚实性的手动分类等)、结节位置(如肺叶、肺段、肺结节CT图像层面、肺内、胸膜)、结节标记方式(紧密包裹结节的边界框、不紧密包裹结节的边界框)、分割方式(自动分割、半自动分割、手动分割)、测量功能(如体积、最大轴向平面最长直径、短径、平均直径、最大三维直径、有效直径、平均密度、面积等)、随访评估功能(如倍增时间、数值参数的百分比(%)和**变化、结节长轴、短轴、平均直径、最大三维直径、有效直径、体积、平均密度等)、客观物理测量准确性(如线性度、精度、重复性、再现性、范围限值、显示误差等)、结节的3D或MIP可视化等。
使用限制明确应用场景(体检、门诊病房)、患者(年龄、地域、疾病类型)、CT设备(主流厂家、探测器排数)、CT扫描参数(如管电压、管电流、层厚/层间距、剂量(常规剂量、低剂量)、窗宽窗位、重建方式、显示方式)、放射学检查条件(CT增强扫描、CT平扫)、CT图像质量要求(如分辨率、伪影)、结节检出的尺寸范围、结节密度分类类别。如软件包含图像质量判定功能,明确软件使用限制。
若含有基于测评数据库测试的性能指标,其要求参考《人工智能医疗器械注册审查指导原则》。
运行环境,运行在不同计算机系统的产品模块(如客户端和云端)需分别描述其运行环境、服务器部署(局域网、云端)信息。
附录中明确体系结构图、用户界面关系图与主界面图示、物理拓扑图、测评数据库、数据库/集信息。
3.软件研究
(1)基本要求
生产企业需依据《医疗器械软件注册审查指导原则(2022年修订版)》提交相应软件研究资料。其中,核心算法所述人工智能算法需依据 《人工智能医疗器械注册审查指导原则》提交相应算法研究资料。
生产企业需依据《医疗器械网络安全注册审查指导原则(2022年修订版)》提交网络安全描述文档。按照《人工智能医疗器械注册审查指导原则》提交数据安全资料。
若使用云计算服务,生产企业需依据《人工智能医疗器械注册审查指导原则》提交相应研究资料。使用云计算服务需明确服务模式、部署模式、核心功能、数据接口、网络安全能力、服务(质量)协议等要求。
软件版本命名规则涵盖算法驱动型软件更新和数据驱动型软件更新;区分重大软件更新和轻微软件更新,其中重大软件更新需列举常见典型情况。
(2)软件安全级别
该类产品的软件安全性级别为严重(C)级。
(3)核心功能
列明软件核心功能的名称、所用核心算法、预期用途并注明类型,全新的核心功能、核心算法、预期用途均需提供安全有效性研究资料。
表1 核心功能示例
核心功能 | 核心算法 | 预期用途 | 类型 |
影像增强,用于增强影像对比度,提升算法精度 | 灰度拉伸图像增强算法 | 肺叶分割及肺结节检测 | 成熟 |
以预测概率对检测框进行优先级排序,消除冗余检测框,抑制假阳性检出 | NMS非极大值抑制 | 辅助医生进行肺结节检测 | 成熟 |
生成候选结节框 | 基于Faster-Rcnn的肺结节检出算法 | 辅助医生进行肺结节检测 | 全新 |
医生检测肺结节 | 基于FPN的肺结节检出算法 | 辅助医生进行肺小结节检测 | 全新 |
利用ResNet产生的热度图裁剪出感兴趣区域,然后将区域分类为结节和非结节,以实现结节检测 | 基于ResNet的肺结节检出算法 | 辅助医生进行肺结节检测 | 全新 |
利用灰度阈值提取肺部区域 | 基于自适应阈值的肺分割算法 | 分割出左右肺,帮助进一步检出肺结节 | 成熟 |
测量肺结节体积,长短径 | 基于3D-UNet的肺结节分割算法 | 辅助医生对肺结节进行分割 | 全新 |
基于肺结节分割,测量肺结节平均HU值 | 基于HU值的肺结节密度测量算法 | 辅助医生测量肺结节内部HU值 | 成熟 |
…… |
注:表1中全新是对当前深度学习算法的全新算法的示例
4.算法研究资料
4.1算法基本信息
需提供算法设计和功能的信息,提供流程图及注释,明确算法名称、版本、软件平台的相关特性。
需描述算法每个阶段(如肺结节检出、肺结节分类、肺结节分割、肺结节测量)的设计和功能,通过文献论述算法类型(成熟及全新)。
4.1.1肺结节检出算法
肺结节检出算法需明确算法的输入,比如算法采用的是2D,2.5D还是3D的胸部CT图像作为算法输入;算法的输出-标记格式描述(形状、大小、与感兴趣区域有关的预期位置、边界、颜色,比如紧密包裹肺结节的矩形框端点(二维/三维),肺结节中心点)。
明确算法所采用的神经网络结构,如 Faster RCNN;明确算法训练采用的损失函数,如交叉熵,L1范数;明确算法设计过程中网络结构、损失函数等核心组件选择和设计的原则、方法与风险考量,如肺结节大小尺度的差异,肺结节与背景正负样本的不均衡性、假阳性、过拟合等;若肺结节检出采用多个模型融合,需明确不同模型训练与推理的方式,以及模型融合的策略,如级联,多数投票;
肺结节检出存在同一个目标多个重叠框的问题,算法需明确匹配关系所采用的策略,如交并比(IoU),定位框中心距离;
明确算法的流程图,需包含算法运行前所进行的前处理(图像缩放、图像像素值归一化、图像重采样)以及算法运行后所进行的后处理操作(图像重采样、非最大化抑制)。明确训练与部署所采用的框架(如Tensorflow, Pytorch)、算法运行环境(如内存、显存的需求)。
若使用迁移学习技术,除上述内容外还需补充预训练模型的数据集构建、算法测试等资料。
4.1.2肺结节密度分类算法
肺结节密度分类算法需明确输出(密度类别),密度类别制定依据以及临床适用性。
肺结节密度分类算法需明确算法的输入,比如算法采用的是2D,2.5D还是3D的图像作为算法的输入。若采用2D,需明确肺结节选取的图像层面,如中心层面,最大面积层面;明确算法所采用的神经网络结构,如Residual Net,Dense-Net;明确算法训练采用的损失函数,如交叉熵,Focal损失函数;损失函数等核心组件选择和设计的原则、方法与风险考量,如肺结节大小尺度的差异,不同类别肺结节样本的不均衡性、过拟合等;若肺结节分类采用多个模型融合,需明确不同模型训练与推理的方式,以及模型融合的策略,如多数投票;最后,明确算法的流程图,训练与部署所采用的框架(如Tensorflow, Pytorch)、算法运行环境(如内存、显存的需求)。
4.1.3肺结节测量算法
针对肺结节测量算法,明确测量原理(基于像素点数),测量实现的方式,如肺结节体积测量算法、密度值测量算法与长径短径测量算法可以通过肺结节分割技术来实现,也可以通过机器学习中的回归方法来进行预测。测量内容包括长径、短径、体积、面积、平均HU值等,其中密度值测量算法需明确测量的类型,如平均值,标准差,最大值,最小值,中位数。
4.1.4肺结节肺叶肺段定位算法
肺结节肺叶肺段定位算法中,明确肺结节定位的类别,如左/右肺定位、肺叶定位、肺段定位。明确算法输入的类型,如肺结节二维切片,肺结节三维图像块,若输入类型为二维切片,明确二维切片选取标准(如肺结节长径短径交点所在切片、肺结节最大面积切片)。
肺结节肺叶肺段定位算法需明确实现的机理,如基于肺段分割算法实现解剖定位,基于图像分类算法实现解剖定位。
若申报产品涉及上述多个算法,需提供算法整体流程图,明确各个算法调用先后关系,以及输入输出依赖关系。
若使用迁移学习技术,除上述内容外还需补充预训练模型的数据集构建、算法测试等资料。
4.2算法需求规范
算法功能需求建议关注数据库需求、算法性能评价指标及制定依据、性能的拟定目标及制定依据。
4.2.1数据库需求
算法性能评价需要基于训练和测试数据库,数据库具体要求详见附件2。
4.2.2算法性能评价指标
在指定肺结节检出算法评估指标之前,需确定器械标记的位置和范围和参考标准之间的匹配性,需明确标记匹配的方式,即算法标记目标与参考标准目标的匹配方式,常见的标记匹配方式有按照区域重叠的比例(面积、体积)、中心点的距离、中心是否落入来判断标记是否匹配;还需明确声称的标记匹配的阈值。
明确算法任务,明确算法训练和调优过程中不同任务的评估指标及定义。有关标记匹配方式与评估指标的定义可以参考“人工智能医疗器械 肺部影像辅助分析软件算法性能测试方法”5.1.1.1章节。明确不同任务的算法评价指标的定义、计算公式及确定依据、分层影响因素选择依据,如肺结节诊疗中国专家共识、美国国立综合癌症网络NCCN指南、 Fleischner协会指南、中华医学会肺癌临床诊疗指南等。
结节检出指标包括不限于召回率、精确度、自由响应受试者操作特性曲线(FROC)。
结节分类指标包括不限于灵敏度、特异度、总体的Kappa系数、准确率。
结节分割指标包括不限于Dice系数、体积交并比、Hausdorff距离。
测量指标包括不限于相对误差、**误差、相对误差**值的平均值。
提供文献综述论证评价指标选择及分层影响因素选择的合理性。分层分析的影响因素包括年龄、病变类型、大小、层厚、采集协议、性别、结节大小、结节密度、厂家、重建核、剂量、管电压、管电流等重要变量。
算法质量特性包括泛化能力、鲁棒性(对抗测试)、压力测试、重复性、一致性、效率。
随访评估功能包括倍增时间、数值参数的百分比(%)和**变化,如结节长轴、短轴、平均直径、最大三维直径、有效直径、体积、平均HU等。
4.2.3算法性能测试基本要求
基于算法流程图评价每个器械操作点的基于病例、基于肺结节、基于分层因素的性能指标,需包括训练集、调优集、测试集的算法性能测试结果,需明确测试方法。所有性能指标均需具有相关置信区间,需提供关于估计置信区间以及与其相关的临床显著性的方法学描述,需提供FROC曲线图及FROC置信区间(如适用)。
4.2.3.1结节检出
需给出软件检出肺结节的召回率和精确度的阈值。测试产品定位准确程度时,只有真阳性检出的结节,且位置正确的标记才能算作正确标记。
召回率和精确度的计算一般针对全体结节进行。在设置筛选条件后,可以使用筛选后的参考标准与筛选后的AI结果进行匹配。如筛选后假阳性结果难以定义,建议以召回率为主要指标,常见情形为:
-对具体某一种结节类型,计算结节的召回率。
-对平均直径、长径处于某一区间的结节,计算召回率
-对类型、尺寸范围组合的结节,计算召回率。
4.2.3.2结节分类
明确分类场景,如二分类场景、多分类场景。对于二分类场景下的指标,如软件能够对A类型的肺结节进行分类,需给出准确率、灵敏度、特异性的阈值。总体的Kappa系数不低于N%;多分类问题可以转化为二分类问题,按每一类进行描述。
4.2.3.3结节分割
如果产品在三维上进行结节分割,需给出算法可以达到的体积交并比或者DICE系数的阈值。如果产品只输出最大层面的分割,则需给出算法可以达到的最大层面面积交并比或者DICE系数的阈值。测试集数据的平均交并比或者DICE系数的95%置信区间应大于等于该阈值。
4.2.3.4结节测量
需明确测量内容,如体积、密度、尺寸测量;需明确各测量内容的测量误差。对于尺寸测量长径小于等于10mm需增加平均直径允差,大于10mm需增加短径允差。
4.2.3.5结节肺叶肺段定位
结节肺叶肺段定位需明确定位的具体功能(如采用边缘勾画方法展示肺叶肺段分割结果、仅采用文字描述结节所处肺叶肺段),肺叶、肺段标记标签分布(如左肺上叶尖后段、左肺上叶前段、右肺中叶外段……)、基于不同功能确定测试指标(如结节所处左右肺准确性、肺叶准确性、肺段准确性、肺叶肺段分割的DICE系数或其他合理指标)及测试指标的计算方法、参考标准建立的方法、测试流程。
测试产品定位准确程度时,只有真阳性检出的结节,且位置正确的标记才能算作正确标记。
4.2.4样本量
明确样本量估计的公式、参数及制定依据。研究样本应足够大,以使声称的性能具有统计学显著性,若有分层性能的声称,应确定子集的样本量以检测声称的统计学显著性。
4.2.5测试方法
需明确测试方法及制定依据。
4.3数据质控
建议参考“人工智能医疗器械注册审查指导原则”及“人工智能医疗器械质量要求和评价 第2部分:数据集通用要求”。
4.3.1数据采集
需提供数据采集协议,需要考虑明确偏倚控制的方法,如通过各亚组设置进行偏移控制,不应为提高算法结果刻意筛选数据。采集数据的地区分布需覆盖东西南北中地区。
明确数据库信息(要求详见附件2)
4.3.2数据整理
明确数据转移保存的方法。明确数据纳入排除标准,以及进行数据筛选的方法(人工清洗、自动清洗),提供数据整理软件工具的研究资料。
提供数据清洗流程图,明确清洗规则,例如确定数据合规性、图像唯一性、层厚、层间距等信息满足要求、连续性、完整性、已完成脱敏等并加以筛选。清洗结果明确弃用数据的数量和原因。明确预处理的操作步骤和内容。
4.3.3数据标注
数据标注建议参考“人工智能医疗器械质量要求和评价 第3部分:数据标注通用要求”。
需明确标注任务分类(包括数据模态、执行主体、标注结果格式、标注结果性质、标注结果形式等维度),提供标注任务描述文档(标注规则、标注人员、标注工具、标注环境、数据)。其中标注规则需明确制定依据并提供参考文献。标注内容宜包括结节检出、结节位置(肺叶、肺段、结节层面)、结节大小、结节密度、角度等。标注人员建议列表给出标注、审核、仲裁人员的基本信息,如数量、医疗机构、科室、工作年限、职称、培训、培训考核情况、工作量、标注任务、人员类型(标注、审核、仲裁)。
标注与质控流程建议提供业务架构、过程组织(任务生成、任务分配、任务实施、质量控制、验收准则及验收报告)。其中业务架构宜采用流程图介绍单例数据的标注、审核、仲裁过程。
明确标注是否基于另一器械的输出、临床检验(如病理检测结果)、随访临床成像检查、除成像外的随访体检、临床医生的解释。
如标注工具、标注平台使用人工智能算法进行辅助标注,需提交标注工具、标注平台算法性能研究资料。
4.3.4数据集构建
依据《人工智能医疗器械注册审查指导原则》指南明确训练集、调优集、测试集的划分方法、划分依据、数据分配比例。
提供查重验证结果,以证实训练集、调优集、测试集的样本两两无交集。
数据扩增需明确扩增的对象、范围、方式(离线、在线)、方法(如翻转、旋转、镜像、平移、缩放、滤波、生成对抗网络等)、倍数、在线数据扩增记录。
提供扩增数据库与标注数据库样本量、样本分布(注明扩增倍数)对比表,以证实扩增数据库样本量的充分性以及样本分布的合理性。
如果采用生成对抗网络进行数据扩增,应提供生成对抗网络的算法基本信息以及算法选用依据资料。
4.4算法训练
算法训练需明确训练过程所采用的优化器及其相关参数,如Adam,SGD;在算法训练阶段,需明确训练集、调优集的划分方式,如留出法,交叉验证法; 需明确训练目标,即判断何时停止训练,如设定最大的训练epoch数目,依据损失函数判断损失稳定且不继续下降,根据训练epoch数量-评估指标曲线判断评估指标不继续提升等。当训练停止后,明确训练模型最佳epoch的选择方法,如在留出法中,根据留出部分的调优集选取评价指标最优的epoch;在交叉验证法中,计算多次随机划分调优集的评价指标平均值,选择最优的epoch。同时,结合临床需求(如灵敏度、精准度),明确算法出厂阈值的选择与方法,并论证训练所得模型是否满足产品既定目标。算法出厂阈值的选择需提供制定依据。
算法训练阶段需结合训练数据量-评估指标曲线验证算法训练数据量的充分性。对于不同的训练数据量,计算对应的评价指标。当评价指标为单一标量时(如灵敏度),训练数据量-评估指标曲线的x轴为训练数据的样本量(如CT序列个数),y轴为在使用特定训练量时,算法在测试集的评价指标。结合训练数据量-评估指标曲线,判断当训练数据量有限时,评价指标是否随数据量的增加而增加,并在数据量达到一定程度后,评价指标趋于平稳。当评价指标为曲线时,可考虑根据不同训练数据量,绘制对应的评价指标曲线,判断曲线下面积(AUC)是否先随数据量的增加而增加,最后当数据量达到一定程度后趋于平稳。以FROC曲线为例,在评估训练数据量的充分性时,当训练数据量有限时,FROC曲线下面积需随数据量增加而增加,FROC曲线逐步逼近坐标左上角;当训练数据量达到一定程度后,FROC曲线下面积慢慢趋于稳定。
若训练过程中采用了数据扩增的方式,需明确扩增方式,如离线数据扩增,在线数据扩增。同时,需明确数据扩增的方法以及相应的参数设置,如图像平移,旋转,缩放,弹性形变等。若训练过程未采用数据扩增,需论证未进行数据扩增的理由。
4.5算法验证与确认
明确临床医师操作点、不同算法任务的算法评价指标的阈值及确定依据。明确算法标记目标与参考标准的匹配方式和匹配阈值。
明确病例水平和结节水平计算方法及定义一个结节的处理方法及病例阳性的方法。在计算病例水平算法性能指标时,需要明确阳性以及阴性病例的定义,比如阳性病例是定义为包含肺结节的病例,还是定义为包含>4mm肺结节的病例。在计算结节水平算法性能指标时,需要明确检出(真阳性)以及假阳性的定义,比如检测框与参考标准重合率为多少时认为检测框是真阳性,检测框与金标准重合率的定义等。
区分算法任务制定具体测试方法和结果计算方法。建议参考《人工智能医疗器械 肺部影像辅助分析软件 算法性能测试方法》。
基于算法的出厂阈值,明确算法在训练集,调优集和测试集的召回率与精确度,通过比较三个数据集的性能来评估算法的泛化性。
对于肺结节检出算法,需分层统计算法对于不同大小和不同密度的肺结节的检出效能,可以通过FROC曲线,召回率以及精确度等指标来评价,同时结合临床需求论述结果的合理性。在肺结节大小的维度来进行分层统计,如将肺结节分为4-5mm,5-8mm ,8-10mm以及10-30mm。一般而言,肺结节尺寸越大,检出的难度越低。在肺结节密度维度,需明确是二分类还是多分类,需明确密度类型及制定依据,进行密度类型的分层统计。
除此之外,还需考虑性别、年龄、设备厂家、重建方式、层厚/层间距、管电流、管电压、剂量(常规剂量、低剂量)、等因素对肺结节检出算法效能的影响。需明确设备主流厂家,且必须符合DICOM 3.0协议标准数据;管电压考虑70-140 kV,管电流考虑10-400 mA;层厚与层间距需不超过5mm;重建方式需考虑常见的肺算法与标准算法(软组织算法)。
在亚组的分层统计中,肺结节检出效能需在不同因素下均能取得较好性能。若在某些影响因素下,肺结节检出效能存在差异,需进行合理地论证,并在说明书给出使用限制。
需提供算法性能测试报告,至少包括软件环境、硬件环境、测试平台描述(如适用)、测试集描述、算法性能指标的符合性分析(性能指标的定义、测试通过准则、统计分析)、算法错误统计。需包括算法性能及算法质量特性、随访功能测试结果。
4.6 算法性能综合分析
结合算法训练、算法性能评估、临床评价等结果开展算法性能综合评价,针对训练样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情况,对产品的适用范围、使用场景、核心功能进行必要限制。
需对算法测试产生的错误结果进行分析,评估算法在检出、分类等任务中出现的假阳性、假阴性结果的含义与危险程度,形成定量报告。
5.用户培训方案
对于软件安全性级别为严重级别的产品,原则上需单独提供一份用户培训方案,包括用户培训的计划、材料、方式、师资等。
用户培训需关注以下内容:预期用户要求,如工作年限或执业资格;医生必须对软件结果进行确认,软件只用于辅助检测,不能替代医生。CT图像要求,如严重呼吸、金属伪影或有扫描质量问题的CT图像慎用;基于临床试验验证,不宜使用该软件的疾病;
(四)产品说明书和标签样稿
说明书、标签和包装标识需符合《医疗器械说明书和标签管理规定》和《医疗器械软件注册审查指导原则(2022年修订版)》、《医疗器械网络安全注册审查指导原则(2022年修订版)》、《人工智能医疗器械注册审查指导原则》和相关标准的规定。
说明书内容需重点关注:
1.用户说明
对预期用户和推荐用户培训的详细说明。如,预期用户工作年限或执业资格要求,且需经培训合格。
2.使用限制
若产品采用人工智能黑盒算法,需根据算法影响因素分析报告,在说明书中明确产品使用限制和必要警示提示信息。
示例:不应仅仅依靠本器械所标识的输出,应由专业医师对结果进行解释。
已发现该器械对于XX的受检者无效。具有这种疾病/病症/异常的受检者不应使用该器械。
对训练数据、测试数据与临床试验的算法性能评估结果不佳,数据量偏少的,此类受检者使用该器械,应由专业医师结合受检者的病史、症状、体征、其他检查结果情况综合给出最终的肺结节检出结论,核实是否需要进一步诊疗的决策,并对临床诊断结果负责。
3.注意事项
测量准确性(如图像长度、CT值平均值、最大值、最小值、面积值、体积、密度、位置坐标)、测量功能警示信息,如体积测量是基于体素个数的图形学测量,并不能完全反映人体真实的体积,测量体积仅供医生参考。
CT图像质量要求,如严重呼吸、金属伪影或有扫描质量问题的CT图像慎用;图像序列未完整包含肺脏全部组织的图像数据禁用。
医生必须对软件结果进行确认,软件只用于辅助检测,不能替代医生。原始的AI结果应保留,确保软件结果的可追溯性与可责性。
4.预防措施
需明确与器械使用相关的不良事件,并提供缓解措施建议。不良事件讨论需至少包括对假阳性事件和假阴性事件的不良事件的讨论。
5.器械描述
需提供以下内容:
-算法设计和功能的概述
-特殊声称(如用于小于4mm结节检测)
-研发和调整算法中所用的受检者数据的参考标准的描述
-与本器械兼容的采集技术
-适当显示器械标记的要求
-软件输出报告及界面数据图示
6.软件
需明确软件发布版本、提供网络安全说明和使用指导,明确用户访问控制机制、电子接口(含网络接口、电子数据交换接口)及其数据类型和技术特征、网络安全特征配置、数据备份与灾难恢复、运行环境(含硬件配置、外部软件环境、网络环境,若适用)、安全软件兼容性列表(若适用)、外部软件环境与安全软件更新(若适用)、现成软件清单(SBOM,若适用)等要求。
7.产品接口和联合使用设备
需明确对配合使用的图像工作站和PACS适当显示器械标记的要求(如适用)。
需明确CT设备兼容(厂家、型号(如适用)、层数)与扫描参数要求(如层厚、层间距、重建方式、管电压、管电流、剂量(常规剂量、低剂量))。
8.算法训练总结
训练方法概述、开发数据库基本信息、训练指标与结果、调优指标及结果。
9.算法性能评估总结
-算法输入与输出
-测试集基本信息
-用于确定器械标记的每个区域的性质的评分标准
-每个可用器械操作点的总体敏感度和假阳性率指标
-分层分析(如,根据病变大小、病变类型、采集参数、成像或数据特征)
-独立FROC性能(如适用),需和操作特性曲线一起说明。
-测试结果
10.临床试验总结
需包括临床试验设计基本类型、研究对象(受试者及阅片者情况)、评价指标,金标准、对收集临床信息方法的描述、统计方法描述、样本量,临床试验结果(含各结节尺寸、各密度类型结节情况)。
11.公开数据库及测试结果(如有)
12.第三方测评数据库及测试结果(如有)
13.辅助决策指标定义(或提供决策指标定义所依据的临床指南、专家共识等参考文献)等信息。如结节大小、结节密度类型的定义、低剂量/常规剂量的定义、分层依据。
[1]《医疗器械注册与备案管理办法》(国家市场监督管理总局令第47号)[Z].
[2]《医疗器械说明书和标签管理规定》(国家食品药品监督管理总局令第6号)[Z].
[3]《医疗器械注册申报资料要求和批准证明文件格式》(国家药品监督管理局2021年第121号)[Z].
[4]《医疗器械通用名称命名指导原则》(国家药品监督管理局2019年第99号)[Z].
[5]《医疗器械产品技术要求编写指导原则》(国家药品监督管理局2022年第8号)[Z].
[6]《医疗器械软件注册审查指导原则(2022年修订版)》(国家药品监督管理局医疗器械技术审评中心2022年第9号)[Z].
[7]《人工智能医疗器械注册审查指导原则》(国家药品监督管理局医疗器械技术审评中心2022年第8号)[Z].
[8] 《人工智能类医用软件产品分类界定指导原则》(国家药品监督管理局2021年第47号)[Z].
[9] YY/T 0316-2016,《医疗器械 风险管理对医疗器械的应用》[S].
[10] YY/T 1833.1,《人工智能医疗器械 质量要求和评价 第1部分:术语》(报批稿) [S].
[11] YY/T 1833.2,《人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求》(报批稿) [S].
[12]YY/T 1833.3,《人工智能医疗器械 质量要求和评价 第3部分:数据标注通用要求》(报批稿) [S].
[13] YY/T XXXX,《人工智能医疗器械 肺部影像辅助分析软件 算法性能测试方法》(报批稿) [S].
[14]AIMDICP-WG6-2020-002,《基于胸部CT的肺结节影像辅助决策产品性能指标和测试方法》[S].
[15] FDA. Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data- Premarket Notification[510(k)] Submissions [EB/OL]https://www.fda.gov/media/77635/download. 2012-07-03/2022-3-8.
[16] FDA. Clinical Performance Assessment: Considerations for Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data in-Premarket Notification [510(k)] Submissions [EB/OL] https://www.fda.gov/media/77642/download 2020-1-22/2022-3-8.
[17] 胸部CT肺结节数据集构建及质量控制专家共识[J].中华放射学杂志,2021,55(02):104-110.
[18]胸部CT肺结节数据标注与质量控制专家共识(2018)[J].中华放射学杂志,2019(01):9-15.
[19] 周清华,范亚光,王颖,乔友林,王贵齐,黄云超,王新允,吴宁,张国桢,郑向鹏,步宏.中国肺部结节分类、诊断与治疗指南(2016年版)[J].中国肺癌杂志,2016,19(12):793-798.
[20] 赫捷,李霓,陈万青,吴宁,沈洪兵,江宇,李江,王飞,田金徽,中国肺癌筛查与早诊早治指南制定顾问组,中国肺癌筛查与早诊早治指南制定专家组,中国肺癌筛查与早诊早治指南制定工作组.中国肺癌筛查与早诊早治指南(2021,北京)[J].中国综合临床,2021,37(03):193-207.
[21] 刘士远.肺亚实性结节影像处理专家共识[J].中华放射学杂志,2015,49(04):254-258.
[22] 中国肺结节病诊断和治疗专家共识[J].中华结核和呼吸杂志,2019(09):685-693.
[23] Bankier Alexander A,MacMahon Heber,Goo Jin Mo,Rubin Geoffrey D,Schaefer-Prokop Cornelia M,Naidich David P. Recommendations for Measuring Pulmonary Nodules at CT: A Statement from the Fleischner Society.[J]. Radiology,2017,285(2).
[24] Bai, C., Choi, C.-M., Chu, C. M., Anantham, D., Chung-man Ho, J., Khan, A. Z., … Yim, A. (2016). Evaluation of Pulmonary Nodules. Chest, 150(4), 877–893.
[25] Deterbeck FC, Mazzone PJ, Naidich DP, et al. Screening for lung cancer:Diagnosis and management of lung cancer, 3rd ed: American College of Chest Physicians evidence-based clinical practice guidelines. Chest, 2013,143(5 Suppl): e78S- e92S.
附件:1.风险管理文档
2.数据库(集)
风险管理文档
下表所列为常见可预见事件序列/可能的伤害示例,需关注:
表2 常见可预见事件序列/可能的伤害示例
危险 | 可预见事件序列 | 可能的伤害 |
信息 危险 |
算法对肺结节直径测量给出过高或过低的结果 | 导致用户对肺结节的主观判断产生误导 |
算法对肺结节的位置存在错误的判定 | 导致用户对肺结节的主观判断产生误导 | |
算法对肺结节密度类型存在分类错误 | 导致用户对肺结节的主观判断产生误导 | |
未按规定编制产品说明书,使用说明不明确 | 导致软件无法正常使用并对用户造成不便 | |
界面实用性差 | 导致误操作 | |
无法正常显示医学图像,或图像失真 | 导致软件无法正常使用并对用户造成不便 | |
菜单设置不实用 | 导致误操作 | |
图像信息丢失或损坏 | 延误治疗 | |
软件不兼容导致产品无法正常运行 | 对用户造成不便 | |
AI模型失效导致无法进行图像识别 | 对用户造成不便 | |
服务器和客户端之间无法正常传输数据 | 软件无法正常使用并对用户造成不便 | |
算法给出的肺结节检出结果存在假阳性结果 | 过度诊断 | |
算法对真阳性肺结节存在漏检 | 延误诊断 | |
操作 危险 |
算法无法对接收到的CT图像进行处理分析 | 导致软件无法正常使用并对用户造成不便 |
无法与相关设备或系统进行通讯连接 | 导致软件无法正常使用并对用户造成不便 | |
软件设计缺陷,可能软件死机或软件自动退出 | 导致软件无法正常使用并对用户造成不便 | |
算法被未经培训的用户、使用不熟练的用户、或非专业用户使用并完成主观诊断 | 导致肺结节的过度诊断或延误诊断 | |
算法对接收到的CT图像进行处理分析的时间过长 | 导致软件无法正常使用并对用户造成不便 |
采取风险控制措施前后的风险矩阵表示例
表3 采取风险控制措施前的风险分布图
严重度 发生概率 |
1 可忽略的 |
2 轻微的 |
3 严重的 |
4 危急的 |
5 灾难性的 |
5频繁 | |||||
4很可能 | |||||
3偶尔 | 4 | ||||
2极少 | 1 | 2 | |||
1不可能 | 1 |
表4 采取风险控制措施后的风险分布图
严重度 发生概率 |
1 可忽略的 |
2 轻微的 |
3 严重的 |
4 危急的 |
5 灾难性的 |
5频繁 | |||||
4很可能 | |||||
3偶尔 | |||||
2极少 | |||||
1不可能 | 4 | 4 |
数据库(集)
按照产品开发时间顺序明确使用的数据库/集情况,需明确数据量变化原因,抽样及合并方法及合理性。数据库/集包括不限于原始数据库、基础数据库、标注数据库、训练集、调优集、测试集、对抗测试集、公开数据库,测评数据库。
每个数据库建议提供以下信息:
-数据库名称及版本、类型(如外部、内部;训练、调优、测试)
-受检者数据收集的纳入和排除标准
-人口统计学数据(年龄、种族、人种)
-放射学检查条件,如CT增强扫描,CT平扫
-采集数据的方法
数据来源(体检筛查、门诊病房)
设备厂家、型号、探测器排数
扫描参数:管电压范围、管电流范围、层厚范围、辐射剂量(低剂量平扫、常规剂量平扫或增强扫描)
-重建方式(标准算法、肺算法、其他)
-样本量(正常案例数、疾病案例数、确定疾病状态、位置、范围的方法)
-按影响因素分层的病例分布,如年龄、性别、结节大小、结节类型、图像重建层厚/层间距、疾病类型、重建方式、扫描协议、成像厂家、地区、医疗机构。
需明确总体数据范围及分层数量及占比,并需列表对比分析各数据库信息。
采用公开数据数据库的需明确用途,不应作为测评数据库使用。
编辑:Cikey TAG:/肺结节CT图像辅助检测软件注册/指导原则/医疗器械软件注册