切换至 "中华医学电子期刊资源库"
浅表器官超声影像学

甲状腺结节人工智能自动分割和分类系统的建立和验证

  • 伯小皖 1 ,
  • 郭乐杭 2 ,
  • 余松远 2 ,
  • 李明宙 3 ,
  • 孙丽萍 , 2,
展开
  • 1.200072 上海,上海市第十人民医院肿瘤微创治疗中心超声医学科 同济大学医学院超声医学研究所医学院;200072 上海,上海市超声诊断与治疗工程研究中心 国家介入医学临床研究中心;202157 上海市第十人民医院崇明分院超声科
  • 2.200072 上海,上海市第十人民医院肿瘤微创治疗中心超声医学科 同济大学医学院超声医学研究所医学院;200072 上海,上海市超声诊断与治疗工程研究中心 国家介入医学临床研究中心
  • 3.100102 北京,北京医银人工智能科技有限公司
通信作者:孙丽萍,Email:

Copy editor: 吴春凤

收稿日期: 2023-06-11

  网络出版日期: 2024-06-05

基金资助

上海市科学技术委员会项目(21Y11910800)

版权

未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计,除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。本刊为电子期刊,以网刊形式出版。

Establishment and verification of an artificial intelligence system for automatic segmentation and classification of thyroid nodules

  • Xiaowan Bo 1 ,
  • Lehang Guo 2 ,
  • Songyuan Yu 2 ,
  • Mingzhou Li 3 ,
  • Liping Sun , 2,
Expand
  • 1.Department of Medical Ultrasound, Center of Minimally Invasive Treatment for Tumor, Shanghai Tenth People's Hospital, Ultrasound Research and Education Institute, School of Medicine, Tongji University, Shanghai 200072, China;Shanghai Engineering Research Center of Ultrasound Diagnosis and Treatment; National Clinical Research Center for Interventional Medicine, Shanghai 200072, China;Chongming Branch of Shanghai Tenth People's Hospital, Shanghai 202157, China
  • 2.Department of Medical Ultrasound, Center of Minimally Invasive Treatment for Tumor, Shanghai Tenth People's Hospital, Ultrasound Research and Education Institute, School of Medicine, Tongji University, Shanghai 200072, China;Shanghai Engineering Research Center of Ultrasound Diagnosis and Treatment; National Clinical Research Center for Interventional Medicine, Shanghai 200072, China
  • 3.Beijing MedBank Artificial Intelligence Technology Co., Ltd, Beijing 100102, China
Corresponding author: Sun Liping, Email:

Received date: 2023-06-11

  Online published: 2024-06-05

Copyright

Copyright by Chinese Medical Association No content published by the journals of Chinese Medical Association may be reproduced or abridged without authorization. Please do not use or copy the layout and design of the journals without permission. All articles published represent the opinions of the authors, and do not reflect the official policy of the Chinese Medical Association or the Editorial Board, unless this is clearly specified.

摘要

目的

开发一种能自动分割和诊断甲状腺结节良恶性的人工智能(AI)系统。

方法

收集872例2017年10月至2018年10月于上海市第十人民医院行穿刺活检确认的甲状腺结节患者的超声图像,利用AI方法对这些图片进行处理、检测等并最终反馈结果,建立AI系统,并对AI系统进行验证及内部测试。按照6∶2∶2的比例将所有收集的超声图像分为训练集、验证集和内部测试集进行初步验证测试。纳入外院209例甲状腺结节患者(共209个结节)超声图像再次进行验证,以穿刺或外科手术病理结果为诊断标准,计算低年资医师组、高年资医师组和AI系统诊断甲状腺结节良恶性的敏感度、特异度、准确性、阳性预测值、阴性预测值,并绘制三者诊断甲状腺结节良恶性的受试者操作特征曲线,计算曲线下面积(AUC),采用Delong检验比较AI系统与低年资医师组、高年资医师组的诊断效能。

结果

AI系统结节自动分割率在验证集、内部测试集和外部测试集上分别为98.8%、98.9%、98.1%。在外部测试集中,AI系统的诊断敏感度、特异度及准确性与低年资医师组、高年资医师组比较,差异均无统计学意义(P均>0.017)。而AI系统诊断甲状腺结节良恶性的AUC优于低年资医师组[0.885(95%CI:0.842~0.929) vs 0.823(95%CI:0.771~0.875),P=0.022],而与高年资医师组[0.932(95%CI:0.897~0.966)]类似(P=0.096)。

结论

本研究开发了一种能自动分割及诊断甲状腺结节良恶性的AI系统,其在外部测试集中具有较高的诊断效能,有望辅助低年资医师更准确鉴别甲状腺结节良恶性。

本文引用格式

伯小皖 , 郭乐杭 , 余松远 , 李明宙 , 孙丽萍 . 甲状腺结节人工智能自动分割和分类系统的建立和验证[J]. 中华医学超声杂志(电子版), 2024 , 21(03) : 304 -309 . DOI: 10.3877/cma.j.issn.1672-6448.2024.03.009

Abstract

Objective

To develop an artificial intelligence (AI) system that can automatically segment and diagnose benign and malignant thyroid nodules.

Methods

The ultrasound images of 872 patients with thyroid nodules confirmed by puncture biopsy at Shanghai Tenth People's Hospital from October 2017 to October 2018 were collected, and the results were processed, monitored, and finally fed back by AI methods. Then, an AI system was established, and the system was verified and tested internally. According to a ratio of 6:2:2, all the collected ultrasound images were divided into training set, validation set, and internal test set for preliminary verification test. The ultrasound images of 209 patients with thyroid nodules (a total of 209 nodules) in other hospitals were re-verified, and the sensitivity, specificity, accuracy, positive predictive value, and negative predictive value of a junior physician group, a senior physician group, and the AI system in the diagnosis of benign and malignant thyroid nodules were calculated using the pathological results of puncture biopsy or surgery as the diagnostic criteria. The receiver operation characteristic curves of the three in the diagnosis of benign and malignant thyroid nodules were plotted, and the area under the curve (AUC) was calculated. The Delong test was used to compare the diagnostic performance of the AI system with junior physicians and senior physicians.

Results

The automatic nodule segmentation rates of the AI system were 98.8%, 98.9%, and 98.1% in the validation set, internal test set, and external test set, respectively. In the external test set, there were no significant differences in the diagnostic sensitivity, specificity, or accuracy between the AI system and the junior or senior physician group (P>0.017 for all). The AUC of the AI system in the diagnosis of benign and malignant thyroid nodules was better than that of junior physicians [0.885 (95%CI: 0.842-0.929) vs 0.823 (95%CI: 0.771-0.875), P=0.022], but similar to that of senior physicians [0.932 (95%CI: 0.897-0.966)] (P=0.096).

Conclusion

We have developed an AI system that can automatically segment and diagnose benign and malignant thyroid nodules, which has high diagnostic efficacy in the external test set, and it is expected to assist junior physicians to more accurately identify benign and malignant thyroid nodules.

随着人们体检意识的增强和超声检查设备分辨率的提高,越来越多患者的甲状腺结节被发现。2020年有研究发现中国成人甲状腺结节发病率达20.43%1。目前超声是判断甲状腺结节良恶性的主要方法。但是超声检查具有较强的操作者依赖性。中国超声医师每天需要检查大量的患者,难免出现视觉疲劳,因此容易使诊断出现错误。人工智能(artificial intelligence,AI)技术近年来快速发展,目前已在甲状腺结节的诊断方面有部分探索2,3,4,5,6,7,有望辅助超声医师提高诊断效率,特别是为低年资医师增加诊断信心。本研究旨在开发一种能自动分割甲状腺结节并作出良恶性判断的AI辅助诊断系统,并进行外部测试。

资料与方法

一、对象

选取2017年10月至2018年10月在上海市第十人民医院行超声检查并经穿刺细胞学检查或外科手术治疗的甲状腺结节患者。本研究经医院伦理委员会批准同意(批件号:SHSY-IEC-5.0/22XJS36/P01)。
纳入标准:(1)所有结节均经穿刺或外科手术病理确认良性或恶性;(2)所有结节的甲状腺影像和数据报告系统(thyroid imaging reporting and data system,TI-RADS)分类为3、4或5类。排除标准:(1)超声图像不清晰难以辨认;(2)患者基本临床资料不全。
最终纳入872例患者的872个结节,其中男性186例,女性686例,患者年龄为(48.0±13.5)岁(范围18~83岁)。结节直径为(22.1±18.8)mm(范围2.4~75.0 mm)。共有良性结节497个,恶性结节375个。每个结节5~10张二维灰阶超声图像,共选取了8000张图片。所有图像格式为JPG格式。按照6∶2∶2的比例将所有图像分为训练集(4800张)、验证集(1600张)和内部测试集(1600张)。外部测试集纳入四川省人民医院和郑州大学附属第一医院的209例患者共209个结节,纳入及排除标准同本院。所有图像均由5名(外部测试集2名)具有10年以上超声诊断经验的医师采集,采集图片务必清晰容易辨认。

二、超声仪器

超声仪器使用法国声科Aixplorer、美国GE LogiQ E9及飞利浦EPIQ7超声诊断仪,均使用线阵探头采集图像,频率范围分别为4~15 MHz、6~15 MHz及4~18 MHz。外部测试集所用超声仪器为美国GE LogiQ E9。

三、AI系统建立方法

1. 预处理模块:传入系统的图像由于需要入库存档,一般都带有患者信息和医院信息,需要对这样的图像进行裁切去除敏感信息,只保留真正的待检测图像部分,并对图像进行尺寸缩放使之适合模型。为了去除成像过程中由于医师的习惯不同导致的图像过亮或过暗现象,需要对图像进行归一化处理,经过预处理模块后的图像可供后续的病灶检测模块调用。
2. 病灶检测模块:从预处理模块中获取经过预处理的图像,使用深度学习网络(以yolov5、ResNet50网络为主)和传统的机器学习算法(主要以OpenCV为主)分别提取图像的特征,用于后续的图像识别、分类、分割任务;深度学习网络提取的特征用于后续的深度学习算法,传统机器学习算法提取的特征用于后续的传统图像识别算法。此模块包括图像目标检测任务、图像分类任务、图像分割任务,其中目标检测任务是基础,检测到结节目标后再进行图像分类和图像分割,属于串行关系,图像分类和图像分割为并列任务。针对不同的子任务使用不同的图像识别算法。结节的检出使用目标检测算法(yolov5),结节属性分类、结节良恶性分类使用基于ResNet50的模型训练,结节的分割使用基于ResNet50的语义分割算法(deeplab v3+)。
3. 异常处理模块:异常处理是对流程中可能出现的不符合预期规定的数据或流程进行反馈,帮助用户进行故障排查。
4. 结果反馈模块:对从步骤1.和步骤2.中得到的结果进行汇总得到是否有结节,结节的位置框坐标、边缘分割坐标、属性分类结果和良恶性分类结果,写入json文件中并回传,用于后续的函数调用和结果展示。AI系统通过属性模型和良恶性模型进行综合判断,根据结节5个特征(回声、形状、边界、成分、点状强回声)进行评分,即根据美国放射协会(American College of Radiology,ACR)发布的TI-RADS进行评分,再结合AI系统的良恶性模型对结节良恶性进行综合判断(表1)。
表1 人工智能系统辅助诊断甲状腺结节良恶性的场景展示
属性模型 良恶性模型 辅助诊断结果
无结节 无结节 未见明显异常
场景1
ACR TI-RADS评分0~2分 良性 考虑良性
ACR TI-RADS评分3分 良性 低度可疑恶性
ACR TI-RADS评分4~6分 良性 中度可疑恶性
ACR TI-RADS评分7分 良性 中度可疑恶性
场景2
ACR TI-RADS评分0~2分 恶性 低度可疑恶性
ACR TI-RADS评分3分 恶性 低度可疑恶性
ACR TI-RADS评分4~6分 恶性 中度可疑恶性
ACR TI-RADS评分7分 恶性 高度可疑恶性

注:ACR TI-RADS为美国放射协会发布的甲状腺影像报告和数据系统;人工智能系统通过属性模型和良恶性模型进行综合判断

四、系统测试

系统建立好后,分别进行内部测试和外部测试。外部测试时所有数据分别让AI、低年资医师组、高年资医师组诊断并给出结果。低年资医师组由3名执业时间<3年的超声科医师组成,高年资医师组由3名执业时间>10年的超声科医师组成。3名医师统一意见后给出的答案为最终结果。

五、统计学分析

采用SPSS 26.0和R4.0.5软件进行统计学分析。患者年龄及结节最大径为计量资料,采用表示,采用独立样本t检验比较训练集、验证集和内部测试集与外部测试集的差异;性别、结节超声特征、恶性比例为计数资料,采用频数(%)表示,采用χ2检验比较训练集、验证集和内部测试集与外部测试集的差异;P<0.05为差异具有统计学意义。在外部测试集中,以穿刺病理结果为诊断标准,计算低年资医师组、高年资医师组和AI系统诊断甲状腺结节良恶性的敏感度、特异度、准确性、阳性预测值、阴性预测值,并采用χ2检验进行组间差异比较,进一步组间两两比较结果以P<0.017为差异具有统计学意义。绘制低年资医师组、高年资医师组和AI系统诊断甲状腺结节良恶性的受试者操作特征(receiver operating characteristic,ROC)曲线,计算曲线下面积(area under the curve,AUC),并采用Delong检验比较AI系统与低年资医师组、高年资医师组AUC的差异。

结果

一、一般临床资料比较

训练集、验证集和内部测试集与外部测试集一般临床资料比较,外部测试集患者年龄更小,结节最大径偏大,边界模糊比例更低,差异均具有统计学意义(P均<0.05)。2个数据集患者性别,结节最大径、低或极低回声、点状钙化、形态不规则、纵横比>1超声特征及恶性结节占比比较,差异均无统计学意义(P均>0.05,表2)。
表2 2个数据集甲状腺结节患者基本临床资料比较
参数 训练集、验证集和内部测试集(n=872) 外部测试集(n=209) 统计值 P
女性[例(%)] 686(78.7) 167(79.9) χ2=0.154 0.694
年龄(岁, 48.0±13.5 44.8±11.7 t=14.031 <0.001
结节最大径(mm, 22.1±18.8 24.7±16.4 t=5.165 0.023
实性成分[例(%)] 439(50.3) 114(54.5) χ2=1.191 0.275
低或极低回声[例(%)] 384(44.0) 98(46.9) χ2=0.556 0.456
点状钙化[例(%)] 285(32.7) 63(30.1) χ2=0.498 0.480
形态不规则[例(%)] 171(19.6) 38(18.2) χ2=0.221 0.639
边界模糊[例(%)] 244(28.0) 42(20.1) χ2=5.388 0.020
纵横比>1[例(%)] 281(32.2) 62(29.7) χ2=0.510 0.475
恶性占比[例(%)] 375(43.0) 100(47.8) χ2=1.605 0.205

二、分割和检测结果

1. 结节自动分割率:在验证集、内部测试集和外部测试集上结节自动分割率分别为98.8%(1580/1600)、98.9%(1582/1600)、98.1%(205/209)。
2. AI系统在验证集和内部测试集中的诊断表现:在验证集中,共验证1600张图片,其中良性结节800张,恶性结节800张。AI诊断的敏感度、特异度、阳性预测值、阴性预测值和准确性分别为88.3%(706/800)、75.8%(606/800)、78.4%(706/900)、86.6%(606/700)、82.0%(1312/1600)。在内部测试集中,共测试1600张图片,其中良性结节800张,恶性结节800张。AI诊断的敏感度、特异度、阳性预测值、阴性预测值和准确性分别为90.5%(724/800)、87.5%(700/800)、87.9%(724/824)、90.2%(700/776)、89.0%(1424/1600)。AI系统辅助诊断示意图见图1
图1 人工智能(AI)系统自动分割、诊断结节良恶性示意图。图a:甲状腺左侧叶见一个低回声结节;图b:AI系统自动分割出结节轮廓;图c:AI系统最终给出辅助诊断结果:该结节为高度可疑恶性结节。结节穿刺病理结果证实为甲状腺乳头状癌

三、AI系统外部验证结果

外部测试集共209个结节,其中良性结节109个,恶性结节100个,AI系统诊断的敏感度、特异度及准确性与低年资医师组和高年资医师组比较,差异虽无统计学意义(P>0.017),而在数值上,AI系统诊断值均较低年资医师组稍高(表3)。ROC曲线分析(图2)显示,AI系统诊断甲状腺结节良恶性的AUC优于低年资医师组[0.885(95%CI:0.842~0.929)vs 0.823(95%CI:0.771~0.875),P=0.022],而与高年资医师组类似[0.932(95%CI:0.897~0.966)](P=0.096)。
表3 外部测试集中人工智能系统、低年资医师和高年资医师对甲状腺结节的诊断表现[%(95%CI)]
参数 敏感度 特异度 阳性预测值 阴性预测值 准确性
人工智能系统 89.0(82.9~95.1) 88.1(82.0~94.2) 87.3(80.8~93.7) 89.7(84.0~95.5) 88.5(88.4~88.6)
低年资医师 82.0(74.5~89.5) 82.6(75.4~89.7)a 81.2(73.6~88.8)a 83.3(76.3~90.4) 82.3(82.2~82.4)a
高年资医师 90.0(84.1~95.9) 96.3(92.8~99.9) 95.7(91.7~99.8) 91.3(86.2~96.5) 93.3(93.2~93.4)
χ2 3.360 10.675 9.742 3.755 12.086
P 0.186 0.005 0.008 0.153 0.002

注:a与高年资医师组比较,差异具有统计学意义(P=0.001、0.002、P=0.001)

图2 人工智能(AI)组、低年资医师组和高年资医师组在外部测试集中对甲状腺结节良恶性的诊断效能的受试者操作特征曲线

讨论

本研究通过开发一种能自动分割和诊断结节的AI系统,在外部测试集中,其诊断效能与高年资医师相仿,而优于低年资医师。
面对目前甲状腺结节患者激增的趋势,甲状腺结节良恶性的鉴别显得尤为重要,但是由于中国患者较多而超声检查医师相对较少,因此难以满足目前患者要求的快速检查的诉求。AI技术有望成为目前面临的这一问题的一种解决方法。目前AI技术在甲状腺结节诊断方面已有部分研究2,3,4,5,Kim等4开发了一种深度学习卷积神经网络模型,其在甲状腺结节良恶性诊断方面与临床医师类似;Zhou等3应用深度学习超声影像组学鉴别甲状腺结节良恶性,其诊断表现优于深度学习模型和医师诊断,其在外部测试集中诊断AUC达到了0.97;Buda等2研究发现,深度学习算法的敏感度和特异度在判断甲状腺结节是否推荐穿刺方面与专家的表现类似。因此,AI技术能准确鉴别甲状腺结节良恶性,且已达到与影像学专家类似的水平。与前人研究相比,本研究结果与这些研究有类似,同样证明了AI系统诊断效能(AUC=0.885)优于低年资医师(AUC=0.823),因此能辅助低年资医师更好地诊断。
然而,目前的研究仅限于临床研究阶段,很少实际应用于临床。目前市场上有部分计算机辅助诊断系统出现,如安克侦系统、AI-SONICTM Throid、S-Detect等6,7,8,9,10,11,12,13。梁羽等8研究发现低年资医师组联合安克侦系统诊断效能明显优于两者任何一者单独诊断。Sun等14研究发现计算机辅助诊断系统(诊断AUC为0.881)拥有优于具有丰富经验的放射科主治医师(诊断AUC为0.819)的诊断表现。但是目前这些系统并未在市面上普及。中国超声医师每天面对大量甲状腺结节患者,每例患者诊断时间可能只有几分钟,这就需要所研发的AI系统必须能够快速给出诊断结果。另外,AI诊断系统需内置于超声仪器,使其便于医师操作。本研究开发的AI诊断系统除了能自动分割图中甲状腺结节,能快速给出每个甲状腺结节的良恶性倾向,并且其可内置入超声仪器,使其具有更实际的临床应用前景及市场推广价值。
本研究有一定的局限性,首先本研究样本量相对较小,且为回顾性研究,未来仍需更大样本量的前瞻性研究来证实本研究所开发系统的准确性。第二,本研究开发的系统还不够完善,仅能提供甲状腺结节的良恶性倾向,不能给出具体危险分层,需要进一步完善。第三,本研究部分甲状腺结节病理诊断为细针穿刺病理,存在一定的误诊可能。
总之,本研究开发了一种能自动分割及诊断甲状腺结节良恶性的AI系统,其在外部测试集中具有较高的诊断效能,有望辅助低年资医师更准确地鉴别甲状腺结节良恶性,同时具有较好的临床实际应用和市场推广价值。
1
Li Y, Teng D, Ba J, et al. Efficacy and safety of long-term universal salt iodization on thyroid disorders: epidemiological evidence from 31 provinces of mainland China [J]. Thyroid, 2020, 30(4): 568-579.

2
Buda M, Wildman-Tobriner B, Hoang JK, et al. Management of thyroid nodules seen on US images: deep learning may match performance of radiologists [J]. Radiology, 2019, 292(3): 695-701.

3
Zhou H, Jin Y, Dai L, et al. Differential diagnosis of benign and malignant thyroid nodules using deep learning radiomics of thyroid ultrasound images [J]. Eur J Radiol, 2020, 127: 108992.

4
Kim YJ, Choi Y, Hur SJ, et al. Deep convolutional neural network for classification of thyroid nodules on ultrasound: comparison of the diagnostic performance with that of radiologists [J]. Eur J Radiol, 2022, 152: 110335.

5
Liu T, Guo Q, Lian C, et al. Automated detection and classification of thyroid nodules in ultrasound images using clinical-knowledge-guided convolutional neural networks [J]. Med Image Anal, 2019, 58: 101555.

6
肖冰心, 吴国柱. AI在甲状腺结节超声智能诊断中的应用 [J]. 中国医疗设备, 2023, 38(1): 165-170.

7
张蕊, 牛丽娟. 基于常规超声的深度学习技术在甲状腺结节良恶性鉴别中的研究进展[J]. 癌症进展, 2022, 20(8): 757-759, 765.

8
梁羽, 岳林先, 曹文斌, 等. 基于计算机辅助诊断的人工智能在甲状腺TI-RADS分类中的临床应用价值 [J]. 四川医学, 2021, 42(2): 127-131.

9
王婷婷, 闫瑞芳, 李潜, 等. 常规超声联合S-detect及超声弹性成像技术对鉴别良恶性甲状腺结节的临床应用价值 [J]. 世界复合医学, 2022, 8(8): 1-4, 9.

10
邢博缘, 赵云, 平杰, 等. 超声S-Detect技术对甲状腺TI-RADS 4类结节良恶性的诊断价值 [J]. 中国超声医学杂志, 2021, 37(5): 497-501.

11
方明娣, 彭梅, 毕玉. 人工智能S-Detect技术结合钙化特征对甲状腺结节的诊断价值[J/OL]. 中华医学超声杂志(电子版), 2021, 18(2): 177-181.

12
李婷婷, 卢漫, 巫明钢, 等. 计算机辅助诊断系统对甲状腺结节的诊断价值研究[J/CD]. 中华医学超声杂志(电子版), 2019, 16(9): 660-664.

13
李盈盈, 李欣洋, 阎琳, 等. S-detect技术辅助住院医师诊断甲状腺影像报告和数据系统4类≤1 cm甲状腺结节的应用价值[J/OL]. 中华医学超声杂志(电子版), 2022 , 19(7): 682-687.

14
Sun C, Zhang Y, Chang Q, et al. Evaluation of a deep learning-based computer-aided diagnosis system for distinguishing benign from malignant thyroid nodules in ultrasound images [J]. Med Phys, 2020, 47(9): 3952-3960.

文章导航

/


AI


AI小编
你好!我是《中华医学电子期刊资源库》AI小编,有什么可以帮您的吗?