Home    中文  
 
  • Search
  • lucene Search
  • Citation
  • Fig/Tab
  • Adv Search
Just Accepted  |  Current Issue  |  Archive  |  Featured Articles  |  Most Read  |  Most Download  |  Most Cited
Obstetric and Gynecologic Ultrasound

Artificial intelligence-based quality control of mid-sagittal plane ultrasound images for first trimester fetal crown-rump length

  • Meifang Zhang ,
  • Ying Tan ,
  • Qiaozhen Zhu ,
  • Xin Wen ,
  • Ying Yuan ,
  • Yue Qin ,
  • Hongbo Guo ,
  • Lingxiu Hou ,
  • Wenlan Huang ,
  • Guiyan Peng ,
  • Shengli Li ,
Expand
  • The First School of Clinical Medicine, Southern Medical University, Guangzhou 510515, China;Department of Ultrasound, Affiliated Shenzhen Maternity & Child Healthcare Hospital, Southern Medical University, Shenzhen 518028, China;Department of Ultrasound, Songgang People's Hospital, Baoan District, Shenzhen 518105, China
  • Department of Ultrasound, Affiliated Shenzhen Maternity & Child Healthcare Hospital, Southern Medical University, Shenzhen 518028, China
  • Department of Ultrasound, Heyuan People's Hospital, Heyuan 517000, China
  • Department of Ultrasound, Affiliated Hospital of Guilin Medical College, Guilin 541001, China
Corresponding author: Li Shengli, Email:

Received date: 2023-05-10

  Online published: 2023-12-11

Copyright

Copyright by Chinese Medical Association No content published by the journals of Chinese Medical Association may be reproduced or abridged without authorization. Please do not use or copy the layout and design of the journals without permission. All articles published represent the opinions of the authors, and do not reflect the official policy of the Chinese Medical Association or the Editorial Board, unless this is clearly specified.

Abstract

Objective

To probe into the clinical application value of artificial intelligence in the judgment of the quality standard of mid-sagittal plane ultrasound images for first trimester fetal crown-rump length (CRL).

Methods

A total of 1251 midsagittal plane ultrasound images of fetuese at 11-13+6 weeks of gestation were selected from the database of Shenzhen Maternity & Child Healthcare Hospital from January to December 2022. Using the unified judging results of the image quality standard by the Expert Committee of Prenatal Ultrasound as the golden standard, the performance of an artificial intelligent based quality control model, senior, middle, and junior sonographers in the judgment of the quality standard of mid-sagittal plane ultrasound images for first trimester CRL was assessed by calculating their coincidence rates with the golden standard. The coincidence rates were compared using the Mcnemar-Bowker tests, and weighted Kappa values were applied to analyse the difference and consistency among these results. Time of quality control for each set of images was recorded as one group per 100 images. The Wilcoxon's two samples signed-rank test was applied to compare the difference in the time spent among the four groups.

Results

The coincidence rate of the intelligent quality control model with the golden standard was 90.5%, suggesting a strong consistency to the golden standard (Kappa=0.83, P<0.001), which was slightly lower than that of senior sonographers (90.5% vs 91.1%, χ2=16.40, P<0.001), but superior to that of middle and junior sonographers' (90.5% vs 78.7% vs 68.9%, χ2=100.25, 16.88, P<0.001 for all). The time spent by the intelligent model quality control was significantly less than that by ultrasound physicians [3.57 (3.55, 3.60) s vs 351 (309, 384) s vs 363 (351, 370) s vs 433 (407, 475) s; Z=-3.180, -3.181, and -3.180, respectively, P<0.001 for all].

Conclusion

The intelligent quality control model is accurate and efficient in the judgment of the quality standard of mid-sagittal plane ultrasound images for first trimester CRL.

Cite this article

Meifang Zhang , Ying Tan , Qiaozhen Zhu , Xin Wen , Ying Yuan , Yue Qin , Hongbo Guo , Lingxiu Hou , Wenlan Huang , Guiyan Peng , Shengli Li . Artificial intelligence-based quality control of mid-sagittal plane ultrasound images for first trimester fetal crown-rump length[J]. Chinese Journal of Medical Ultrasound (Electronic Edition), 2023 , 20(09) : 945 -950 . DOI: 10.3877/cma.j.issn.1672-6488.2023.09.009

早孕期胎儿头臀长测量是临床估测胎儿孕龄的重要方法,结合颈后透明层厚度测值和母体血清标志物检测可以筛查胎儿非整倍体1,2,3,4。有研究表明,不同超声医师测量头臀长的差异较大,从而导致孕周估测差异较大,使得后续临床评估胎儿的生长发育情况时出现误判,最终可能导致不适当的临床决策5-6,这在双胎妊娠病例中表现更为明显。超声图像的标准程度是影响头臀长测值的主要因素之一7,标准化的质量控制可以有效减少测量误差5。既往早孕期超声图像的质量控制主要采用人工质控模式8。但是,人工质控有其固有的缺点,包括主观性大、耗时费力等9-10,全员、大规模、长期开展超声图像质控比较困难。近年来,人工智能在医学图像分析领域取得飞速发展,其具有高效、准确及客观的优势11。人工智能在中晚孕期胎儿超声图像质控方面已达到与专家媲美的水平12-13,但对于早孕期超声图像的质控尚处于研究阶段。本研究旨在探讨人工智能质控在早孕期胎儿头臀长正中矢状切面超声图像标准程度判断方面的应用价值。

资料与方法

一、对象

选取深圳市妇幼保健院2022年1月至12月孕11~13+6周胎儿头臀长正中矢状切面超声图像1251张。纳入标准:早孕期超声筛查无明显结构异常的单活胎,留存的图像为单幅图像。排除标准:早孕双胎,一幅图像中出现2个切面或4个切面的分屏图像。

二、仪器与方法

1. 仪器:采用Samsung公司WS80A超声诊断仪,腹部容积探头CV1-8A,探头频率为1.0~8.0 MHz,开立公司S60超声诊断仪,腹部容积探头VC2-9,探头频率为2.0~9.0 MHz,GE公司Voluson E8超声诊断仪,腹部容积探头RAB4-8-D,探头频率为4.0~8.4 MHz,迈瑞公司Nuewa R9 腹部容积探头 D8-2U,探头频率为4.0~8.0 MHz。
2. 图像质量控制金标准制定:深圳市妇幼保健院产前超声专家委员会使用UltraSonic Multi Label软件对1251张胎儿头臀长正中矢状切面超声图像进行标准程度的质量评价以及解剖结构的评价与标注,以专家委员会统一意见作为金标准。具体评价标准细则见表1。该评价标准根据国内外早孕期胎儿超声检查指南414-15并结合本研究目的制定,主要根据切面内重要结构的显示情况计算得分,由总得分将图像质量评判为标准(19~20分)、基本标准(17.5~18.5分)和非标准(≤17分)3个等级。
表1 孕11~13+6周胎儿头臀长正中矢状切面评分标准细则表
结构 显示情况 得分
头部 显示 3
不显示 0
臀部 显示 3
不显示 0
上颌骨 显示 4
不显示 0
间脑 显示 3
不显示 0
下颌骨 显示 3
不显示 0
鼻尖和鼻前皮肤 显示 1
不显示 0
鼻骨 显示 1
不显示 0
菱脑 显示 1
不显示 0
侧脑室 显示 -0.5
不显示 0
生殖器 显示 1
不显示 0
合计 20

注:19~20分为标准,17.5~18.5分为基本标准,≤17分为非标准

3. 图像整理:对1251张胎儿头臀长正中矢状切面超声图像进行连续编号,以每100张图像为一组,共分为13组,然后将所有图像复制成2份置于2个文件夹中,分别命名为Image Set A和Image Set B。
4. 智能质控:将Image Set A中的图像以组为单位依次上传到由深圳市妇幼保健院与湖南大学共同开发的产前超声人工智能智慧云平台中进行智能质量评估,该平台已搭载早孕期胎儿头臀长正中矢状切面超声图像智能质控模型。智能质控模型对胎儿头臀长正中矢状切面的评价与专家委员会设定的评价内容和标准一致。记录智能判断结果及每组图像从点击质控开始到质控结束的时间。
5. 人工质控:将Image Set B中的图像以组为单位上传至产前超声人工智能智慧云平台的人工质控目录下,由高级、中级、初级超声医师(分别具有10年、5年、2年超声检查经验,高级、中级超声医师具有产前超声筛查资格,初级超声医师尚无产前超声筛查资格)各1名分别使用独立账号依据个人经验进行人工评价,记录质控结果以及每组图像的质控时间。
6. 对智能质控模型与金标准判断不符的图像,专家委员会再次对图像进行复核,通过对比同一图像智能质控模型识别输出与专家委员会标注结构的不同结果,计数并统计得出智能质控模型对各结构漏检和误检的情况。

三、统计学分析

采用SPSS 26.0统计分析软件进行统计学分析。超声图像评价结果为计数资料,以例(%)表示,对比金标准统计智能质控模型、高级超声医师、中级超声医师和初级超声医师对切面标准程度判断的符合率,应用McNemar-Bowker检验及Weighted Kappa分析组间结果的差异性与一致性;Kappa值<0.20为一致性较差,0.21~0.40为一致性一般,0.41~0.60为一致性中等,0.61~0.80为一致性较强,0.81~1.00为一致性强。每组图像质控耗时为不符合正态分布的计量资料,以MQR)表示,使用两相关样本Wilcoxon符号秩检验比较智能质控与人工质控耗时的差异。P<0.05表示差异具有统计学意义。

结果

一、图像一般情况

经专家委员会评定胎儿头臀长正中矢状切面图像标准程度的分布情况如下:在1251张图像中,标准图像865张(69.1%,865/1251),基本标准图像262张(20.9%,262/1251),非标准图像124张(9.9%,124/1251)。

二、智能质控模型与不同级别超声医师的质控结果

对比金标准,智能质控模型对于入选图像标准程度评价的符合率略低于高级超声医师[90.5%(1132/1251)vs 91.1%(1140/1251),表2],两者相对于金标准结果的一致性均为强(Kappa=0.83、0.85,P均<0.001);智能质控模型符合率明显高于中级超声医师[78.7%(984/1251)]和初级超声医师[68.9%(862/1251),表2],中级与初级超声医师的人工质控结果相对于金标准结果的一致性分别为较强(Kappa=0.64,P<0.001)和中等(Kappa=0.48,P<0.001)。
表2 智能质控模型与不同级别超声医师对胎儿头臀长正中矢状切面超声图像的质控结果对比(张)
质控方式 金标准 合计
标准 基本标准 非标准
智能质控模型
标准 802 33 10 845
基本标准 63 222 6 291
非标准 0 7 108 115
高级超声医师
标准 819 54 1 874
基本标准 46 208 10 264
非标准 0 0 113 113
中级超声医师
标准 738 83 0 821
基本标准 84 124 2 210
非标准 43 55 122 220
初级超声医师
标准 651 139 2 792
基本标准 204 115 26 345
非标准 10 8 96 114
合计 865 262 124 1251

注:高级超声医师、中级超声医师和初级超声医师的人工质控结果与智能质控结果比较,差异均具有统计学意义(χ2=16.40,P<0.001;χ2=100.25,P<0.001;χ2=16.88,P<0.001)

三、智能质控与金标准判断不一致的情况

智能质控模型错误判断标准程度的超声图像数为119张(9.5%,119/1251),出现漏检和误检超声结构总计135个,其中漏检和误检较多的结构为鼻骨、鼻尖和鼻前皮肤、生殖器,较少错误的为上颌骨、间脑,侧脑室、菱脑错误检测情况介于中间(表3图1)。
表3 胎儿头臀长正中矢状切面图像智能质控漏检和误检结构情况统计表(个)
超声结构 漏检 误检
鼻骨 32 6
鼻尖和鼻前皮肤 26 8
生殖器 25 9
侧脑室 19 0
菱脑 0 5
间脑 2 2
上颌骨 0 1
下颌骨 0 0
总计 104 31
图1 胎儿头臀长正中矢状切面图像人工智能质控与金标准结果不一致图片。图a:人工智能漏检短小鼻骨,将标准图像判断为基本标准;图b:胎儿鼻骨前方脐带遮挡时人工智能漏检鼻骨、鼻尖和鼻前皮肤,将标准图像判断为基本标准;图c:人工智能漏检侧脑室,将基本标准图像判断为标准;图d:人工智能因误判脐带为生殖器,将基本标准图像判断为标准

四、智能质控与人工质控效率对比

每组胎儿头臀长正中矢状切面图像耗时智能质控明显较高级、中级及初级超声医师人工质控耗时短[3.57(3.55,3.60)s vs 351(309,384)s vs 363(351,370)s vs 433(407,475)s],差异具有统计学意义(Z=-3.180、-3.181、-3.180、P均<0.001)。

讨论

产科超声标准切面是超声评估胎儿生长发育和筛查结构异常的基础16,也是当前产前超声图像质量控制的重点。Wanyonyi等9提出基于6个评价项目对早孕期头臀长图像进行客观评价比主观评估具有更高的可靠性和可重复性,Yaqub等10的研究也证实,对图像进行质量控制以及采取针对性的改进措施能明显改善存图的完整性和提高存图的质量,从而大大提升疾病筛查的质量,有效减少医疗纠纷。当前大部分医院对产科超声图像的质控仍处于抽查模式,该模式下质控员主观性强、耗时费力且需要占用大量高年资医师资源,导致人工质控不能在临床实际应用中大规模地开展和持续进行。随着人工智能在超声图像领域的广泛应用17,基于专家评分系统的超声图像智能质控12受到越来越多的关注,并逐渐脱离实验室进入临床应用阶段,得到更多医院的认可。
本研究结果显示,智能质控模型对早孕期胎儿头臀长切面的标准程度判断符合率高,基本达到了高级超声医师水平(90.5% vs 91.1%),且明显高于中级与初级超声医师(90.5% vs 78.6% vs 68.9%)。这充分体现了智能质控的优势,它可在短时间内通过大量学习经专家审核的胎儿超声图像,提取其内相关的感兴趣区结构特征,并通过特定的算法,不断精进,从而快速习得高年资医师对图像的理解和经验;而初级、中级超声医师对切面的理解以及内部结构的认识则需要经过长时间和大量病例的积累才能达到专家水平,可见智能质控具有替代人工质控的巨大潜能。
然而,智能质控仍然面临严峻的考验。早孕期胎儿头臀长正中矢状切面声像图目标结构小而多,且部分结构位置相互靠近,甚至重叠,另外,同一解剖结构在不同胎儿中声像图表现也可能存在差异12,或不同解剖结构可能具有相似的声像图特征13,同时图像中可能混杂干扰背景18,这些原因导致智能质控模型会出现误检和漏检。本研究结果显示,智能质控模型对鼻骨、鼻尖和鼻前皮肤以及生殖器的漏检、误检率较高,这正是上述原因的具体表现。鼻骨、鼻尖和鼻前皮肤及生殖器结构小,鼻骨和鼻尖、鼻前皮肤位置非常接近,且常见胎儿肢体等位于其前方造成遮挡、干扰,模型检测准确性受到影响。此外,正中矢状切面上,生殖器位于胎儿下腹部前方,与脐带插入腹壁处位置较为接近,且两者声像图上类似,均表现为周边呈线状高回声,内部呈无回声区,因此,脐带可能被误判为生殖器。在评分分值占比较重的结构中,如上颌骨、间脑,由于其外形相对较大,且声像图回声特异性较高,模型的识别效果好,人工智能质控结果出现大量明显错误的概率较低。在本研究中,只有少量图像对上颌骨和间脑这两个结构判断出错,其中间脑漏误检共4个,上颌骨误检仅1个。
智能检测的高效性是其强有力的优势之一。在本研究中,智能质控每组图像(100张)平均耗时仅约3.57 s,明显短于人工质控,也较既往研究中对于胎儿上腹部横切面和四腔心切面的智能质控的耗时更短1218,这主要得益于计算机人工智能算法的飞速发展。
本研究的不足在于研究数据仅来源于单中心,尚需多中心数据进一步验证本模型效能;其次,智能质控模型对于小结构识别的准确性仍有待提高。
综上所述,胎儿头臀长正中矢状切面智能质控模型在评估切面标准程度的符合率和一致性方面均优于初级、中级超声医师,接近高级超声医师的水平,而且耗时明显缩短,达到了准确、客观、高效的效果。
1
Salomon LJ, Bernard JP, Nizard J, et al. First-trimester screening for fetal triploidy at 11 to 14 weeks: a role for fetal biometry [J]. Prenat Diagn, 2005, 25(6): 479-483.

2
Bahado-Singh RO, Lynch L, Deren O, et al. First-trimester growth restriction and fetal aneuploidy: the effect of type of aneuploidy and gestational age [J]. Am J Obstet Gynecol, 1997, 176(5): 976-980.

3
Napolitano R, Dhami J, Ohuma EO, et al. Pregnancy dating by fetal crown-rump length: a systematic review of charts [J]. BJOG, 2014, 121(5): 556-565.

4
International Society of Ultrasound in Obstetrics and Gynecology, Bilardo CM, Chaoui R, et al. ISUOG Practice Guidelines (updated): performance of 11-14-week ultrasound scan [J]. Ultrasound Obstet Gynecol, 2023, 61(1): 127-143.

5
Gadsboll K, Wright A, Kristensen SE, et al. Crown-rump length measurement error: impact on assessment of growth [J]. Ultrasound Obstet Gynecol, 2021, 58(3): 354-359.

6
Sabria J, Guirado L, Miró I, et al. Crown-rump length audit plots with the use of operator-specific PAPP-A and β-hCG median MoM [J]. Prenat Diagn, 2017, 37(3): 229-234.

7
Dhombres F, Roux N, Friszer S, et al. Relation between the quality of the ultrasound image acquisition and the precision of the measurement of the crown-rump length in the late first trimester: what are the consequences? [J]. Eur J Obstet Gynecol Reprod Biol, 2016, 207: 37-44.

8
Fries N, Althuser M, Fontanges M, et al. Quality control of an image-scoring method for nuchal translucency ultrasonography [J]. Am J Obstet Gynecol, 2007, 196(3): 272, e1-e5.

9
Wanyonyi SZ, Napolitano R, Ohuma EO, et al. Image-scoring system for crown-rump length measurement [J]. Ultrasound Obstet Gynecol, 2014, 44(6): 649-654.

10
Yaqub M, Kelly B, Stobart H, et al. Quality-improvement program for ultrasound-based fetal anatomy screening using large-scale clinical audit [J]. Ultrasound Obstet Gynecol, 2019, 54(2): 239-245.

11
施俊, 汪琳琳, 王珊珊, 等. 深度学习在医学影像中的应用综述 [J]. 中国图象图形学报, 2020, 25(10): 1953-1981.

12
Wu L, Cheng JZ, Li S, et al. FUIQA: Fetal ultrasound image quality assessment with deep convolutional networks [J]. IEEE Trans Cybern, 2017, 47(5): 1336-1349.

13
谭莹, 文华轩, 彭桂艳, 等. 产科超声图像智能质量控制系统的效能 [J]. 中国医学影像技术, 2022, 38(9): 1361-1366.

14
中华医学会超声医学分会妇产超声学组, 国家卫生健康委妇幼司全国产前诊断专家组医学影像组. 超声产前筛查指南 [J]. 中华超声影像学杂志, 2022, 31(1): 1-12.

15
李胜利, 文华轩. 11~13~(+6)周早孕期胎儿超声规范化扫查技术及判断标准 [J/CD]. 中华医学超声杂志(电子版), 2014, 11(1): 6-8.

16
李胜利, 文华轩. 中孕期胎儿系统超声检查切面及临床意义 [J/CD]. 中华医学超声杂志(电子版), 2010, 7(3): 366-381.

17
Shen YT, Chen L, Yue WW, et al. Artificial intelligence in ultrasound [J]. Eur J Radiol, 2021, 139: 109717.

18
Dong J, Liu S, Liao Y, et al. A generic quality control framework for fetal ultrasound cardiac four-chamber planes [J]. IEEE J Biomed Health Inform, 2020, 24(4): 931-942.

Outlines

/

Copyright © Chinese Journal of Medical Ultrasound (Electronic Edition), All Rights Reserved.
Tel: 010-51322630、2632、2628 Fax: 010-51322630 E-mail: csbjb@cma.org.cn
Powered by Beijing Magtech Co. Ltd