切换至 "中华医学电子期刊资源库"
心血管超声影像学

基于深度学习的超声心动图动态图像切面识别研究

  • 成汉林 1 ,
  • 史中青 2 ,
  • 戚占如 2 ,
  • 王小贤 2 ,
  • 曾子炀 3 ,
  • 单淳劼 1 ,
  • 钱隼南 4 ,
  • 罗守华 1 ,
  • 姚静 , 2,
展开
  • 1.210096 南京,东南大学生物科学与医学工程学院
  • 2.210008 南京,南京大学医学院附属鼓楼医院超声医学科;210008 南京,南京大学医学院附属鼓楼医院医学影像中心;211400 扬州,南京鼓楼医院集团仪征医院
  • 3.215123 苏州,东南大学苏州联合研究院
  • 4.210009 南京,江苏省省级机关医院信息处
通信作者:姚静,Email:

Copy editor: 汪荣

收稿日期: 2023-06-18

  网络出版日期: 2024-04-25

基金资助

国家自然科学基金(61871126)

江苏省重点研发计划(BE2022828)

江苏省前沿引领技术基础研究专项(BK20222002)

江苏省卫生健康委2022年度医学科研项目(281)

南京鼓楼医院临床研究专项(2022-YXZX-YX-01)

版权

未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计,除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。本刊为电子期刊,以网刊形式出版。

Deep learning-based two-dimensional echocardiographic dynamic image view recognition

  • Hanlin Cheng 1 ,
  • Zhongqing Shi 2 ,
  • Zhanru Qi 2 ,
  • Xiaoxian Wang 2 ,
  • Ziyang Zeng 3 ,
  • Chunjie Shan 1 ,
  • Sunnan Qian 4 ,
  • Shouhua Luo 1 ,
  • Jing Yao , 2,
Expand
  • 1.School of Biological Sciences and Medical Engineering, Southeast University, Nanjing 210096, China
  • 2.Department of Ultrasound Medicine, Affiliated Hospital of Medical School, Nanjing University, Nanjing 210008, China;Medical Imaging Centre, Affiliated Hospital of Medical School, Nanjing University, Nanjing 210008, China;Yizheng Hospital of Nanjing Drum Tower Hospital Group, Yangzhou 211400, China
  • 3.Suzhou Joint Research Institute, Southeastern University, Suzhou 215123, China
  • 4.Department of Information Office, Jiangsu Province Official Hospital, Nanjing 210009, China
Corresponding author: Yao Jing, Email:

Received date: 2023-06-18

  Online published: 2024-04-25

Copyright

Copyright by Chinese Medical Association No content published by the journals of Chinese Medical Association may be reproduced or abridged without authorization. Please do not use or copy the layout and design of the journals without permission. All articles published represent the opinions of the authors, and do not reflect the official policy of the Chinese Medical Association or the Editorial Board, unless this is clearly specified.

摘要

目的

提出一种基于深度学习的切面识别模型SlowFast-Echo,进行二维经胸超声心动图动态图像的切面类型自动识别。

方法

选取2022年8月至12月在南京大学医学院附属鼓楼医院超声医学科完成二维经胸超声心动图检查的722例受检者(含心尖二腔、心尖三腔与心尖四腔等9类临床检查常用切面,共2243个动态图像),各类切面图像按照5∶2∶3的比例划分为训练集、验证集和测试集。进行SlowFast-Echo模型的训练和验证后,以准确率、精度、召回率、F1分数对模型的切面识别性能进行定量评价,以类激活映射图对模型的可解释性进行定性评价,以模型实地部署到超声医学科后的表现进行实用性评价。

结果

SlowFast-Echo模型对测试集动态图像切面类型预测的整体准确率、精度、召回率与F1分数分别为0.9866、0.9847、0.9872与0.9859;显著性热力图表明模型关注区域与超声科医师基本一致,如模型准确地定位到了肋骨旁短轴大血管水平切面(PSAXGV)显著的主动脉及主动脉瓣、胸骨旁短轴二尖瓣水平切面(PSAXMV)的二尖瓣与胸骨旁短轴乳头肌水平切面(PSAXPM)的乳头肌。实地部署后模型切面识别的整体准确率、精度、召回率与F1分数分别为0.9903、0.9865、0.9868与0.9865;在RTX 3060 GPU上单个动态图像的平均推理时间平均值为(303.2±119.3)ms,基本满足采图后即时处理的临床需求。

结论

本研究提出的SlowFast-Echo模型有着良好的二维经胸超声心动图动态图像切面识别性能与推理实时性,实用性较强,具有较好的应用前景。

本文引用格式

成汉林 , 史中青 , 戚占如 , 王小贤 , 曾子炀 , 单淳劼 , 钱隼南 , 罗守华 , 姚静 . 基于深度学习的超声心动图动态图像切面识别研究[J]. 中华医学超声杂志(电子版), 2024 , 21(02) : 128 -136 . DOI: 10.3877/cma.j.issn.1672-6448.2024.02.004

Abstract

Objective

To propose a deep learning-based view recognition model, SlowFast-Echo, for the automatic view recognition of two-dimensional (2D) transthoracic echocardiographic dynamic images.

Methods

From August to December 2022, 722 patients who underwent 2D transthoracic echocardiography at the Department of Ultrasound Medicine, Affiliated Hospital of Medical School, Nanjing University (9 types of clinically commonly used views [including apical two-chamber, apical three-chamber, and apical four-chamber views], with a total of 2243 dynamic images) were selected, and the images of each view were divided into training set, validation set, and test set in a ratio of 5:2:3. After training and validation of the SlowFast-Echo model, the performance of the model was evaluated quantitatively in terms of accuracy, precision, recall, and F1 score, qualitatively in terms of the interpretability of the model with regard to class activation mapping, and practically in terms of the performance of the model after field deployment to the ultrasound medicine department.

Results

The overall accuracy, precision, recall, and F1 score of the SlowFast-Echo model for dynamic image view recognition in the test set were 0.9866, 0.9847, 0.9872, and 0.9859, respectively, and the significance heatmap indicated that the model's regions of interest were generally consistent with those drawn by the physicians; e.g., the model accurately pinpointed the significant aorta and aortic valve in parasternal short axis view of great vessel (PSAXGV) view, mitral valve in parasternal short axis view of left ventricle at mitral value level (PSAXMV) view, and papillary muscles in parasternal short axis view of left ventricle at papillary muscle level (PSAXPM) view. The overall accuracy, precision, recall, and F1 score of the model for view recognition after deployment were 0.9903, 0.9865, 0.9868, and 0.9865, respectively, and the average inference time on RTX 3060 GPU for a single dynamic image was (303.2±119.3) ms, which basically meets the clinical demand for immediate processing after image acquisition.

Conclusion

The SlowFast-Echo model proposed in this study has good performance in view recognition of 2D transthoracic echocardiographic dynamic images and inference in real time, which is practically useful.

超声心动图是目前心脏病检查与诊断的重要工具之一,能够快速、准确、非侵入性地获取心脏的结构和功能信息1,其中二维经胸超声心动图也已广泛地应用于心脏病常规临床诊疗的多种场合。而标准切面则是基于二维经胸超声心动图的临床、教学及科研工作的质量保证,其前置环节切面识别对于质量控制、参数测量、图文报告生成等均具有重要意义。但医学超声成像各类切面动态图像内部差异大,且部分类别的切面存在类间易混淆的情况,因此二维经胸超声心动图切面的自动识别是一个颇具挑战性的问题。
近年来,深度学习(deep learning,DL)在大规模自然图像数据集中表现出远超传统数据驱动方法的性能2,该项技术也被广泛地应用于二维经胸超声心动图切面自动识别的研究中3,4,5,6,7,8,9,10。这些研究主要基于二维卷积神经网络(convolutional neural network,CNN),实现多种切面类型的识别。陶攀等3在7类切面的识别中达到了97.49%的整体准确率;Madani等4在12类切面的识别中达到了97.8%的整体准确率;Zhang等5在23类切面的识别中达到了84%的整体准确率且胸骨旁长轴左心室切面的识别准确率达96%;Ostvik等6在8类切面的识别中达到了98.9%的整体准确率;Kusunose等7在5类切面的识别中达到了98.1%的整体准确率;Santosh等8在4类切面的识别中达到了96.7%的整体准确率。另外,也有基于二维CNN构建双流二维CNN模型,以提取超声视频的空间和时间特征的一些研究,如Gao等9对8类切面的自动识别以及Howard等10对14类切面的自动识别,这两项研究的整体准确率分别为92.1%与96.1%。上述研究中,二维CNN模型及其变体取得了良好的性能表现,但仍存在一定的缺陷:覆盖的切面范围有限8或对图像质量有一定要求6、识别精度与实际临床需求尚有一定距离58,9,10、预测策略带有随机因素难以确保结果的一致性37以及预测耗时较长4。此外,上述研究均停留在对实验室环境下切面识别表现的讨论,未进一步探究实际临床环境下的切面识别表现与推理耗时情况。
针对现阶段相关研究中存在的不足,本研究基于自然图像视频分类模型SlowFast11,针对二维经胸超声心动图动态图像切面自动识别的任务特性,提出一种新的切面自动识别模型SlowFast-Echo,并讨论模型在实验室环境与实际临床环境下对二维经胸超声心动图动态图像切面识别的表现。

资料与方法

一、对象

选取2022年8月至2022年12月在南京大学医学院附属鼓楼医院超声医学科完成经胸超声心动图检查的患者722例,采用Philips和GE超声仪器,采集图像保存格式为DICOM,不同型号超声仪器的分辨率、可视区域大小、探头规格和成像参数设置均有所差异。本研究中自动识别的切面范围包含心尖二腔(apical two chamber,A2C)、心尖三腔(apical three chamber,A3C)、心尖四腔(apical four chamber,A4C)、心尖五腔(apical five chamber,A5C)、胸骨旁长轴左心室(parasternal long axis view of left ventricle,PLAX)、胸骨旁短轴大血管水平(parasternal short axis view of great vessel,PSAXGV)、胸骨旁短轴二尖瓣水平(parasternal short axis view of left ventricle at mitral value level,PSAXMV)、胸骨旁短轴乳头肌水平(parasternal short axis view of left ventricle at papillary muscle level,PSAXPM)与胸骨旁短轴心尖水平(parasternal short axis view of left ventricle at apical level,PSAXA)9类切面(图1)。通过处理与标识共获得2243个超声心动图视频。本研究获得南京大学医学院附属鼓楼医院医学伦理委员会伦理审查同意(批件号:2022-337-01)。
图1 本研究自动识别的二维超声心动图9类切面示意图

注:A2C为心尖二腔切面;A3C为心尖三腔切面;A4C为心尖四腔切面;A5C为心尖五腔切面;PLAX为胸骨旁长轴左心室切面;PSAXGV为肋骨旁短轴大血管水平切面;PSAXMV为胸骨旁短轴二尖瓣水平切面;PSAXPM为胸骨旁短轴乳头肌水平切面;PSAXA为胸骨旁短轴心尖水平切面

二、方法

(一)数据处理与标记

将原始DICOM格式动态图像文件中的患者隐私信息抹除,包括姓名、医院、ID等,再转化为同样帧率的AVI格式的视频。
由3位超声医学科医师独立判定视频所属的切面类别,其中3位医师均难以辨认所属切面类型的视频被剔除。最终筛选出前述9类切面的视频共2243个,各类切面视频按5∶2∶3的比例,分别划分到训练集、验证集和测试集中。各类切面数据集视频数目与帧数信息见表1
表1 9类切面数据情况
视频数目与帧数信息 A2C A3C A4C A5C PLAX PSAXGV PSAXMV PSAXPM PSAXA
视频总数 183 269 333 134 281 313 292 232 206
训练集视频数 91 134 166 67 140 156 145 115 102
验证集视频数 37 54 67 27 57 63 59 47 42
测试集视频数 55 81 100 40 84 94 88 70 62
总帧数 18963 27653 35889 15063 32366 38683 33107 26662 22477
帧数范围 41~342 33~285 26~205 41~172 16~401 47~367 41~243 29~184 41~241

注:A2C为心尖二腔切面;A3C为心尖三腔切面;A4C为心尖四腔切面;A5C为心尖五腔切面;PLAX为胸骨旁长轴左心室切面;PSAXGV为肋骨旁短轴大血管水平切面;PSAXMV为胸骨旁短轴二尖瓣水平切面;PSAXPM为胸骨旁短轴乳头肌水平切面;PSAXA为胸骨旁短轴心尖水平切面

(二)SlowFast-Echo模型

本研究提出的SlowFast-Echo模型主要包含5部分,分别为感兴趣区域(region of interest,ROI)提取、采样均衡、随机数据增强、SlowFast-Echo网络与推理策略(图2)。
图2 SlowFast-Echo模型示意图
1. ROI提取。为排除心电信号、色度条等背景的干扰,运用霍夫直线检测、形态学操作等图像处理技术对整个视频提取扇区掩膜(mask),并将各帧mask外像素值置为0。为使扇区在训练样本中占据尽可能大的范围,各帧基于扇区mask进行裁剪,再使用双线性插值将尺寸调整为256×256(图2a)。
2.采样均衡。各类切面的视频在整个数据集合中的占比有较大差异,如A4C切面视频占比14.85%,而A5C切面视频仅为5.97%(表1),而实际临床情况中的这一类别间的数据不均衡情况更严峻。为确保模型的学习效果,基于各类切面视频数目在数据集合的占比,对训练过程中各类样本被采样的概率进行均衡(图2b)。
3.随机数据增强。视频分类网络相较常规二维图像分类网络,有更高的训练数据量需求,本研究参考随机自动数据增强12,以一定的概率选择图像增强变换。将常规的数据增强变换,如旋转、缩放、对比度增强、随机裁剪加入到数据增强变换的策略集合中,并参考Zhong等13、He等14的研究,结合任务特性针对性地加入了随机网格掩码这一数据增强变换,该变换对二维帧序列进行网格划分,并对划分的网格按照给定的概率进行随机擦除。最终输出的视频各帧尺寸为224×224(图2c)。
4. SlowFast-Echo网络。考虑到模型部署的硬件加速友好性,本研究选用了利用三维卷积进行时序建模的SlowFast作为基础网络。SlowFast网络包含一个在较低时间分辨率下运行的Slow通道和一个在较高时间分辨率下运行的Fast通道。Slow与Fast通道分别输入较低与较高速率采样的帧序列,从而捕获视频中的长期与短期时间动态,二者融合使得模型以不同的速率捕获空间和时间特征。为进一步增强SlowFast网络的识别性能,本研究在Slow与Fast通道的最后一个融合层前加入了Non-local模块15,允许网络有选择性地关注任务相关的空间和时间特征,后文将这一网络称为SlowFast-Echo网络(图2d)。
5.推理策略。实际推理时,对输入的视频进行ROI提取并以224×224尺寸围绕中心裁剪,再均匀切分为固定长度为64帧的9段序列(不足64帧则补零处理),合并为一个批次后送入SlowFast-Echo网络,得到各段序列的识别结果,以结果的众数作为最终的切面类别(图2d)。

(三)SlowFast-Echo模型训练、验证与测试环境及参数

实验室环境下,SlowFast-Echo模型的训练、验证与测试基于Windows平台与PyTorch深度学习框架(版本1.8.1)。主要硬件环境如下:Intel(R)Core(TM)i5-12600KF中央处理器、32 GB 3200 MHz内存以及单张24 GB显存的NVIDIA GeForce RTX 3090Ti显卡。SlowFast-Echo网络结构参数如下:输入序列长度为64帧,Fast通道的帧采样步长与基础特征通道数分别为1与8,Slow通道的帧采样步长与基础特征通道数均为8。模型训练相关参数如下:损失函数为交叉熵函数,优化器为SGD,学习率衰减策略为固定步长衰减且初始学习率为0.001,批次大小为4,总迭代轮次为180,预训练模型为ResNet10116。在实地部署于实际临床环境前,模型以原训练集与验证集作为新训练集,以原测试集作为新验证集进行最终的训练,并选择新验证集上综合性能最佳的模型用于实地部署。
模型在南京大学医学院附属鼓楼医院超声科室进行实地部署,部署与推理基于Windows平台,使用NVIDIA加速引擎TensorRT17提高GPU运行效率,GPU加速库CUDA版本为11.6。主要硬件环境如下:Intel(R)Core(TM)i5-12490F中央处理器、16 GB 3200 MHz内存以及单张12 GB显存的NVIDIA GeForce RTX 3060显卡。

三、统计学定量分析与模型有效性分析

本研究使用准确率、精度、召回率和F1分数对模型的切面识别性能进行定量评价,其计算方法与含义如下:准确率(accuracy):A=(Ntp+Ntn)/N,表示识别正确的视频数占总视频数的比例;召回率(recall):R=Ntp/(Ntp+Nfn),表示识别为正确的正例视频占实际为正例视频的比例;精度(precision):P=Ntp/(Ntp+Nfp),表示识别正确的正例视频占识别为正例视频的比例;F1分数:F1=2PR/(R+P),为精度和召回率的调和平均数。
此外,以准确率、精度、召回率、F1分数等定量分析指标衡量模型的切面识别性能,存在一定的局限性,因神经网络模型的“黑盒模型”特性,其有效性难以直观评估。为分析模型的有效性,本研究利用类激活映射图(class activation map,CAM)18可视化特定类别的显著性判别区域,从而解释模型的有效性。

结果

一、切面识别结果定量分析

通过对测试集中674个视频进行推理,并计算评估指标结果(表2),整体准确率、精度、召回率与F1分数分别为0.9866、0.9847、0.9872与0.9859。尽管模型在各类切面的识别表现略有不同,但整体准确率、精度、召回率与F1分数均大于0.95,同时各类切面的识别准确率均高于0.95,A2C、A3C、A4C、PSAXGV与A5C五类切面的识别准确率在0.99以上。
表2 各类切面视频测试集识别性能表现
切面类型 测试视频数 准确率 精度 召回率 F1分数
A2C 55 1.0000 1.0000 1.0000 1.0000
A3C 81 1.0000 0.9878 1.0000 0.9939
A4C 100 0.9900 1.0000 0.9900 0.9950
A5C 40 1.0000 0.9756 1.0000 0.9877
PLAX 84 0.9762 1.0000 0.9881 0.9940
PSAXGV 94 1.0000 1.0000 1.0000 1.0000
PSAXMV 88 0.9659 0.9884 0.9659 0.9770
PSAXPM 70 0.9571 0.9571 0.9571 0.9571
PSAXA 62 0.9839 0.9531 0.9839 0.9683
合计 674 0.9866 0.9847 0.9872 0.9859

注:A2C为心尖二腔切面;A3C为心尖三腔切面;A4C为心尖四腔切面;A5C为心尖五腔切面;PLAX为胸骨旁长轴左心室切面;PSAXGV为肋骨旁短轴大血管水平切面;PSAXMV为胸骨旁短轴二尖瓣水平切面;PSAXPM为胸骨旁短轴乳头肌水平切面;PSAXA为胸骨旁短轴心尖水平切面

模型切面识别结果的混淆矩阵如图3所示,预测误差主要集中于PSAXMV、PSAXPM与PSAXA三类切面间。
图3 各类切面视频识别结果混淆矩阵

注:A2C为心尖二腔切面;A3C为心尖三腔切面;A4C为心尖四腔切面;A5C为心尖五腔切面;PLAX为胸骨旁长轴左心室切面;PSAXGV为肋骨旁短轴大血管水平切面;PSAXMV为胸骨旁短轴二尖瓣水平切面;PSAXPM为胸骨旁短轴乳头肌水平切面;PSAXA为胸骨旁短轴心尖水平切面

二、模型可解释性分析

采用CAM方法对SlowFast-Echo模型进行实验,将各类切面动态图像与对应的类别显著性热力图叠加后,结果如图4所示。各子图中不同位置的颜色从蓝到红,表示相应位置图像内容对模型识别结果影响的从小到大。类别显著性热力图的结果能很好地解释模型的有效性,如图4c图4d中红色区域定位到的图像内容,正是区分A4C与A5C切面的重要特征之一。此外,模型还定位到了PSAXGV切面显著的主动脉及主动脉瓣(图4f)、PSAXMV切面的二尖瓣(图4g)与PSAXPM切面的乳头肌(图4h)。
图4 各类切面动态图像与类别显著性热力图合成图

注:A2C为心尖二腔切面;A3C为心尖三腔切面;A4C为心尖四腔切面;A5C为心尖五腔切面;PLAX为胸骨旁长轴左心室切面;PSAXGV为肋骨旁短轴大血管水平切面;PSAXMV为胸骨旁短轴二尖瓣水平切面;PSAXPM为胸骨旁短轴乳头肌水平切面;PSAXA为胸骨旁短轴心尖水平切面

三、实地部署表现

在SlowFast-Echo模型部署到南京大学医学院附属鼓楼医院超声医学科后,随机抽取超声信息系统(ultrasound information system,UIS)数据库中检查日期为2022年12月至2023年1月的二维经胸超声心动图动态图像(共723个前述9类切面的DICOM格式文件)并进行切面识别。
各类切面数据详情与模型表现如表3所示,模型切面识别的整体准确率、精度、召回率与F1分数分别为0.9903、0.9865、0.9868与0.9865。对比表3表2中展示的结果,可以看出实际临床环境下模型对A3C、PSAXPM切面的识别能力存在一定程度的下滑,而在PLAX、PSAXA切面上表现出轻微的提升,最终各项定量指标的整体表现与实验室环境的差异在可接受的范围内。
表3 实地部署后各切面识别性能表现与推理耗时情况
切面类型 动态图像数目 准确率 精度 召回率 F1分数 推理耗时(ms,
A2C 90 1.0000 1.0000 1.0000 1.0000 333.2±104.7
A3C 48 0.9792 1.0000 0.9792 0.9895 339.4±107.9
A4C 147 0.9932 0.9932 0.9932 0.9932 330.5±106.0
A5C 25 1.0000 0.9615 1.0000 0.9804 338.5±100.7
PLAX 93 1.0000 1.0000 1.0000 1.0000 304.6±125.8
PSAXGV 135 1.0000 1.0000 1.0000 1.0000 268.0±109.0
PSAXMV 60 0.9833 0.9833 0.9833 0.9833 308.2±101.3
PSAXPM 49 0.9388 0.9787 0.9388 0.9583 314.2±129.5
PSAXA 76 0.9868 0.9615 0.9868 0.9740 239.8±138.6
合计 723 0.9903 0.9865 0.9868 0.9865 303.2±119.3

注:A2C为心尖二腔切面;A3C为心尖三腔切面;A4C为心尖四腔切面;A5C为心尖五腔切面;PLAX为胸骨旁长轴左心室切面;PSAXGV为肋骨旁短轴大血管水平切面;PSAXMV为胸骨旁短轴二尖瓣水平切面;PSAXPM为胸骨旁短轴乳头肌水平切面;PSAXA为胸骨旁短轴心尖水平切面

同时,模型在NVIDIA GeForce RTX 3060显卡上,对于单个动态图像推理耗时的平均值为(303.2±119.3)ms,且各类切面动态图像的推理耗时均值均未超过340 ms。

讨论

二维经胸超声心动图对于心脏疾病的临床诊断与治疗具有重要意义。二维经胸超声心动图的切面识别,不仅是质量控制的重要前置环节,同时对后续超声心动图参数自动测量及图文报告生成具有重要作用519,20,21,可以极大节省超声质量控制和日常检查中的人力投入。目前,已有一些基于深度学习的二维经胸超声心动图动态图像的切面自动识别研究,部分研究中表现出的整体识别精度已超过97%35,6,7。但已有研究暂不能完好地满足覆盖切面范围、图像质量、识别精度、结果一致性与预测耗时这五大要求,且这些研究仅讨论了实验室环境下切面识别的表现,未进一步深入到实际临床环境中。基于上述问题,本研究针对识别任务的特性,设计了任务特化的ROI提取、采样均衡、随机数据增强、SlowFast-Echo网络、推理策略,提出了一种新的切面自动识别模型SlowFast-Echo。
本研究结果表明,SlowFast-Echo模型在实验室环境与实际临床环境下均有良好的切面识别表现。实验室环境下,对于9类切面的674个测试动态图像,整体准确率、精度、召回率与F1分数分别为0.9866、0.9847、0.9872与0.9859,各类切面的识别准确率均高于0.95;实际临床环境中,含9类切面的723个动态图像,整体准确率、精度、召回率与F1分数分别为0.9903、0.9865、0.9868与0.9865,与实验室环境下表现的差异在可接受范围内。
值得注意的是,表3中显示的整体准确率、精度与F1分数相较表2有轻微提升,如果仅从数值来看,会得到实际临床环境下的相应表现优于实验室环境的结论,这与人们对于深度学习模型的常规认知相悖。但需要注意的是,表3表2中各类切面的图像数目存在较为显著的差异,而图像数目与最终整体精度呈正相关。因此,数量占优的PLAX、PSAXA切面的结果提升,对最终整体结果的正面影响超过了A3C、PSAXPM切面表现下降带来的负面影响,加上图像总量的增加,以及任务特化的ROI提取、采样均衡、随机数据增强与推理策略使得模型具有良好的泛化性,最终使得模型在实际临床环境有着不逊于实验室环境的表现。
除定量表现外,SlowFast-Echo模型在有效性、实时性与经济性上均有良好的表现。类别显著性热力图的结果表明,模型切实关注到了各切面的显著特征区域,如PSAXGV切面的主动脉及主动脉瓣、PSAXMV切面的二尖瓣、PSAXPM切面的乳头肌与PSAXA切面的心肌,这与超声科医师判断动态图像切面类型时关注到的区域是基本一致的;在实时性上,实际临床环境下模型在NVIDIA GeForce RTX 3060显卡上,针对的单个二维经胸超声心动图动态图像推理耗时的平均值为(303.2±119.3)ms,且各类切面动态图像的推理耗时均值都未超过340 ms,基本满足采图后即时获取切面类型信息的临床需求,而上述数值在实验室环境下(NVIDIA GeForce RTX 3090Ti显卡)进一步缩减到约为原数值的1/3;经济性方面,即使在Intel(R)Core(TM)i5-12490F中央处理器与NVIDIA GeForce RTX 3060显卡的硬件条件下,模型的推理耗时也能基本满足临床需求,因此模型具有良好的经济适用性,实用性较强。
同时,在网络结构选择方面,出于工程部署中对硬件加速的需求,SlowFast-Echo模型主要使用了卷积层并仅在深层加入非局部模块15,相较于基于深度学习的超声图像处理中广泛采用的长短期记忆网络22与近来热度颇高的深度自注意力网络23,这样的设计对GPU的加速计算更友好。
但本研究仍存在一定的局限性:(1)样本量较小,各类切面测试样本数有限且不均衡,统计效能存在不足;(2)所识别的切面范围有待进一步扩增,如加入肋下四心室切面与下腔静脉切面,以及从工程实现的异常处理角度出发,将不在识别范围内的切面设定为其他类等;(3)模型设计尚有改进空间,未进一步结合深度学习领域时序信息融合的最新研究,如支持并行计算的新型循环神经网络架构24
综上所述,本研究构建的基于深度学习的二维经胸超声心动图动态图像切面自动识别模型SlowFast-Echo,具有良好的切面识别性能,同时在有效性、实时性与经济性上均有良好的表现。在南京大学医学院附属鼓楼医院超声医学科进行实地部署后,模型的各项表现表明了该模型具有良好的实用性,临床应用前景广阔。
1
Cleve J, McCulloch ML. Conducting a cardiac ultrasound examination [J]. Echocardiography, 2018: 33-42.

2
Krizhevsky A, Sutskever I, Hinton GE. Imagenet classification with deep convolutional neural networks [J]. Commun ACM, 2017, 60(6): 84-90.

3
陶攀, 付忠良, 朱锴, 等.基于深度学习的超声心动图切面识别方法 [J]. 计算机应用, 2017, 37(5): 1434-1438.

4
Madani A, Arnaout R, Mofrad M, et al. Fast and accurate view classification of echocardiograms using deep learning [J]. NPJ Digital Med, 2018, 1: 6.

5
Zhang J, Gajjala S, Agrawal P, et al. Fully automated echocardiogram interpretation in clinical practice: feasibility and diagnostic accuracy [J]. Circulation, 2018, 138(16): 1623-1635.

6
Østvik A, Smistad E, Aase SA, et al. Real-time standard view classification in transthoracic echocardiography using convolutional neural networks [J]. Ultrasound Med Biol, 2019, 45(2): 374-384.

7
Kusunose K, Haga A, Inoue M, et al. Clinically feasible and accurate view classification of echocardiographic images using deep learning [J]. Biomolecules, 2020, 10(5): 665.

8
Santosh Kumar BP, Haq MA, Sreenivasulu P, et al. Fine-tuned convolutional neural network for different cardiac view classification [J]. J Supercomput, 2022, 78(16): 18318-18335.

9
Gao X, Li W, Loomes M, et al. A fused deep learning architecture for viewpoint classification of echocardiography [J]. Inform Fusion, 2017, 36: 103-113.

10
Howard JP, Tan J, Shun-Shin MJ, et al. Improving ultrasound video classification: an evaluation of novel deep learning methods in echocardiography [J]. J Med Artif Intell, 2020, 3: 4.

11
Feichtenhofer C, Fan H, Malik J, et al. Slowfast networks for video recognition [C]. Proceedings of the IEEE/CVF international conference on computer vision, Seoul, Korea (South), 2019: 6202-6211. Piscataway, NJ: IEEE Computer Society, 2019.

12
Cubuk ED, Zoph B, Shlens J, et al. Randaugment: Practical automated data augmentation with a reduced search space [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Seattle, WA, USA, 2020: 702-703. Piscataway, NJ: IEEE Computer Society, 2020.

13
Zhong Z, Zheng L, Kang G, et al. Random erasing data augmentation [C]. Proceedings of the AAAI conference on artificial intelligence, New York, USA, 2020, 34(7): 13001-13008. Menlo Park, CA: AAAI, 2020.

14
He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, LA, USA, 2022: 16000-16009. Piscataway, NJ: IEEE Computer Society, 2022.

15
Wang X, Girshick R, Gupta A, et al. Non-local neural networks [C]. Proceedings of the IEEE conference on computer vision and pattern recognition, Salt Lake City, UT, USA, 2018: 7794-7803. Piscataway, NJ: IEEE Computer Society, 2018.

16
He K, Zhang X, Ren S, et al. Deep residual learning for image recognition [C]. Proceedings of the IEEE conference on computer vision and pattern recognition, Las Vegas, NV, USA, 2016: 770-778. Piscataway, NJ: IEEE Computer Society, 2016.

17
Vanholder H. Efficient inference with tensorrt [C]. GPU Technology Conference, Sunny San Jose, California, USA, 2016, 1: 2. Santa Clara, CA: Nvidia, 2016.

18
Zhou B, Khosla A, Lapedriza A, et al. Learning deep features for discriminative localization [C]. Proceedings of the IEEE conference on computer vision and pattern recognition, Las Vegas, NV, USA, 2016: 2921-2929. Piscataway, NJ: IEEE Computer Society, 2016.

19
姜玉新, 李建初, 王红燕, 等.信息化技术助力超声医学质量控制新发展 [J/OL].中华医学超声杂志(电子版),2021,18(7): 625-628.

20
Huang MS, Wang CS, Chiang JH, et al. Automated recognition of regional wall motion abnormalities through deep neural network interpretation of transthoracic echocardiography [J]. Circulation, 2020, 142(16): 1510-1520.

21
Huang KC, Huang CS, Su MY, et al. Artificial intelligence aids cardiac image quality assessment for improving precision in strain measurements [J]. JACC Cardiovasc Imaging, 2021, 14(2): 335-345.

22
Lane ES, Azarmehr N, Jevsikov J, et al. Multibeat echocardiographic phase detection using deep neural networks [J]. Comput Biol Med, 2021, 133: 104373.

23
吴洋, 张红梅, 尹立雪, 等.超声心动图心尖四腔心切面图像质量智能评分研究[J/OL].中华医学超声杂志(电子版), 2023, 20(1): 97-102.

24
Hasani R, Lechner M, Amini A, et al. Liquid time-constant networks [C]. Proceedings of the AAAI Conference on Artificial Intelligence, Vancouver, Canada, 2021, 35(9): 7657-7666. Menlo Park, CA: AAAI, 2021.

文章导航

/


AI


AI小编
你好!我是《中华医学电子期刊资源库》AI小编,有什么可以帮您的吗?