切换至 "中华医学电子期刊资源库"
肌骨超声影像学

基于YOLO 11的肢体长骨骨折断端超声检测模型的临床价值

  • 傅小芳 1, 2 ,
  • 杨青翰 3 ,
  • 孙昌琴 1 ,
  • 豆梦杰 1 ,
  • 胡峻溥 1 ,
  • 孙灏 1 ,
  • 吕发勤 , 1,
展开
  • 1100039 北京,锦州医科大学解放军总医院第三医学中心研究生培养基地
  • 2200235 上海市第八人民医院超声医学科
  • 3211189 南京,东南大学生物科学与医学工程学院

通信作者:

吕发勤,Email:

Copy editor: 汪荣

收稿日期: 2025-02-22

  网络出版日期: 2025-08-01

基金资助

国家重点研发计划(2022YFB4703500)

国家自然科学基金面上项目(62371121)

版权

未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计,除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。本刊为电子期刊,以网刊形式出版。

Clinical value of a YOLO 11-based ultrasound detection model for limb long bone fracture ends

  • Xiaofang Fu 1, 2 ,
  • Qinghan Yang 3 ,
  • Changqin Sun 1 ,
  • Mengjie Dou 1 ,
  • Junpu Hu 1 ,
  • Hao Sun 1 ,
  • Faqin Lyu , 1,
Expand
  • 1Postgraduate Training Base, Third Medical Center, Chinese PLA General Hospital, Jinzhou Medical University, Beijing 100039, China
  • 2Department of Ultrasound, Shanghai Eighth People's Hospital, Shanghai 200235, China
  • 3School of Biological Sciences and Medical Engineering, Southeast University, Nanjing 211189, China

Corresponding author:

Lyu Faqin, Email:

Received date: 2025-02-22

  Online published: 2025-08-01

Copyright

Copyright by Chinese Medical Association No content published by the journals of Chinese Medical Association may be reproduced or abridged without authorization. Please do not use or copy the layout and design of the journals without permission. All articles published represent the opinions of the authors, and do not reflect the official policy of the Chinese Medical Association or the Editorial Board, unless this is clearly specified.

摘要

目的

探讨基于YOLO 11的肢体长骨骨折断端超声检测模型的临床应用价值。

方法

前瞻性纳入2023年7月至2025年1月上海市第八人民医院206例长骨骨折患者,采集骨折断端的超声长轴切面图像,经Labelme软件标注,建立训练数据集(461张图像),按7:1:2随机划分为训练集、验证集和测试集。训练YOLO 11模型,通过精确率、召回率、F1分数、交并比>50%时的平均精度均值(mAP@50)评估模型性能,并与YOLOv8模型对比。另纳入40例受试者(骨折组与正常组各20例),采集骨折断端及正常骨超声图像构建独立临床验证集,通过敏感度、特异度、阴性预测值(NPV)、阳性预测值(PPV)综合评估模型的临床诊断效能,并分析单帧平均推理时间。

结果

测试集数据显示,YOLO 11模型的精确率、召回率、F1分数、mAP@50分别为87.9%、85.3%、86.6%、89.2%,优于YOLOv8的82.9%、74.3%、78.4%、81.9%。临床验证集中,YOLO 11的敏感度(92.7% vs 83.9%)及NPV(91.2% vs 82.8%)优于YOLOv8,特异度(95.4% vs 98.0%)和PPV(96.2% vs 98.2%)略有下降,单帧平均推理时间较YOLOv8略增加(42.5 ms vs 36.1 ms)。

结论

YOLO 11模型在肢体长骨骨折断端检测中可高效识别骨折断端,为院前快速筛查和临床诊断提供了有效的辅助工具。

本文引用格式

傅小芳 , 杨青翰 , 孙昌琴 , 豆梦杰 , 胡峻溥 , 孙灏 , 吕发勤 . 基于YOLO 11的肢体长骨骨折断端超声检测模型的临床价值[J]. 中华医学超声杂志(电子版), 2025 , 22(06) : 541 -546 . DOI: 10.3877/cma.j.issn.1672-6448.2025.06.007

Abstract

Objective

To evaluate the clinical value of a YOLO 11-based ultrasound detection model for identifying fracture ends in limb long bones.

Methods

A total of 206 patients with long bone fractures in Shanghai Eighth People's Hospital from July 2023 to January 2025 were prospectively included. Ultrasonic long-axis sectional images of the fracture ends were collected. The images were labeled using the Labelme software to establish a training dataset (461 images), which was randomly divided into a training set, a validation set, and a test set at a ratio of 7:1:2. The YOLO 11 model was trained. The performance of the model was evaluated by precision, recall, F1 score, and the mean average precision when the intersection over union was greater than 50% (mAP@50), and it was compared with the YOLOv8 model. In addition, 40 subjects (20 with fractures and 20 normal controls) were newly included to construct an independent clinical validation set. Ultrasonic long-axis sectional images of the fracture ends and normal bones were collected. The clinical diagnostic efficacy was comprehensively evaluated by sensitivity, specificity, negative predictive value (NPV), and positive predictive value (PPV), and the average inference time per frame was analyzed.

Results

According to the data of the test set, the indicators of the YOLO 11 model were superior to those of the YOLOv8 model. Its precision, recall, F1-score, and mAP@50 were 87.9%, 85.3%, 86.6%, and 89.2%, respectively. In the clinical validation set, the sensitivity (92.7% vs 83.9%) and NPV (91.2% vs 82.8%) of YOLO 11 were better than those of YOLOv8, while the specificity (95.4% vs 98.0%) and PPV (96.2% vs 98.2%) slightly decreased, and the average inference time per frame shows a marginal increase over YOLOv8 (42.5 ms vs 36.1 ms).

Conclusion

The YOLO 11 model can efficiently identify the fracture ends of long bones in the limbs, providing an effective auxiliary tool for rapid pre-hospital screening and clinical diagnosis.

成人骨折诊断主要依赖X线和CT检查等传统方法,随着超声技术的发展,其在骨折早期评估中的应用逐渐受到关注[1,2]。超声具有无辐射、便携等优势,尤其在院前特殊场景[3,4]及儿童[5]的骨折诊断中展现出显著的临床价值。然而,超声诊断骨折的准确性受到操作者经验的影响,初级医师通常需要经过长期学习和训练才能熟练掌握这一技术。近年来,随着人工智能(artificial intelligence,AI)技术的快速发展,基于深度学习的目标检测算法已成功应用于X线[6]和CT[7]的骨折检测,并且已有成熟的商用软件投入临床应用[8]。YOLO系列作为目标检测算法的代表之一,具有速度快、实时性强的核心优势[9],已有一些研究探索了其在超声领域的应用潜力,如甲状腺结节[10]、乳腺肿块[11]、颈动脉斑块[12]及心脏瓣膜反流[13]的检测。然而,目前关于超声骨折预测模型的研究鲜有报道。本研究将YOLO系列最新的YOLO 11目标检测模型应用于肢体长骨骨折断端的超声检测中,旨在构建一个基于YOLO 11的轻量化超声骨折断端检测模型,并验证其在骨折断端超声检测中的临床应用价值。

资料与方法

一、对象

研究纳入2023年7月至2025年1月于上海市第八人民医院住院的206例长骨骨折患者作为模型训练数据,另纳入40例受试者(骨折患者20例,正常组20例)用于模型的临床验证。共计246例研究对象,其中男性119例、女性127例,年龄范围为18~93岁,平均年龄为(56.1±16.3)岁。骨折组纳入标准:(1)接受超声及CT检查,且相关资料完整者;(2)骨折断端的超声影像清晰;(3)初次就诊且未接受骨折相关治疗的患者。排除标准:(1)开放性骨折;(2)因石膏固定或其他情况无法充分暴露骨折部位;(3)生命体征不稳定或存在任何其他危及生命的损伤;(4)数据资料不完整者;(5)超声图像质量差。正常组纳入标准:(1)无近期肢体外伤史及骨科手术史;(2)无骨折史、骨肿瘤或感染性疾病;(3)超声检查确认骨皮质连续、无骨膜异常;(4)骨表面超声影像清晰。共采集805张骨长轴切面图像,其中骨折图像653张,正常骨图像152张。本研究经上海市第八人民医院伦理委员会批准(批件号:2023-055-15)。所有患者及家属均已了解研究内容,并签署知情同意书。

二、仪器与方法

1.仪器:

使用飞利浦EPIQ7C和飞利浦HD11超声仪器,线阵探头频率为5~12 MHz,凸阵探头频率为2~5 MHz,仪器预设置为肌骨检查模式。

2.超声图像采集:

检查由一名具有10年以上超声工作经验的资深超声医师操作。根据解剖部位及患肢肿胀情况选择探头,调节仪器参数(深度、增益、聚焦等),深度一般设置为2~5 cm,增益调节至适中,聚焦放置于骨表面,以确保骨折断端及周围软组织成像质量最佳。超声探头平行于长骨纵轴并垂直于骨表面(图1a),采集清晰的骨折断端图像(图1b),每例患者采集5~8张,并保存为JPG格式。构建超声影像数据库,内容包括患者基本信息,如年龄、性别、骨折时间、骨折原因、骨折部位等,以及相关超声影像资料。
图1 骨折超声影像数据的采集及断端标注。图a为纵切面超声图像采集操作示意图,超声探头置于肢体骨折处,垂直骨表面;图b为超声长轴切面图像,箭头所示为胫骨骨折断端;图c为使用Labelme软件进行肢体长骨骨折断端超声图像的矩形框标注,矩形框完整地包绕断端

3.数据标注与处理:

(1)数据标注:使用医学图像标注软件Labelme对骨折组超声影像中的肢体骨折断端进行标注(图1c)。标注过程包括为每张影像添加骨折断端的类别信息和边界框信息。(2)数据预处理与增强:为提高模型的泛化能力并减少因样本量有限而导致的过拟合风险,对数据和标签进行了归一化,并采用数据增强策略对训练集进行扩充,具体方法包括随机旋转、水平和垂直翻转、随机裁剪、添加高斯噪声及调整亮度和对比度等。

4.数据集的构建:

研究共构建了两个数据集,分别用于训练和验证模型临床检测效能。(1)模型训练数据集:206例骨折(461张骨折图像)构建模型训练数据集,以患者为单位,按7:1:2随机划分为3部分,其中训练集包含322张图像、验证集46张图像、测试集93张图像。(2)临床诊断效能验证集:引入健康无骨折20例(152张图像)及骨折组20例(192张图像)构建临床验证数据集,同时使用骨折数据和正常骨表面数据模拟真实临床环境,进一步检测模型在真实临床环境下的骨折断端检出效能。

5.模型的训练、验证与测试:

基于YOLO 11骨折检测模型,使用模型训练数据集,以0.001初始学习率,8批次大小进行训练,通过框损失(box loss)度量预测与真实检测框差异,分类损失(cls loss)计算类别预测误差,引入自由形变损失(dfl loss)约束检测框形变,提升检测精度。训练持续迭代500轮,每轮训练后使用验证集评估模型性能,选取验证集表现最优模型作为最终训练模型,并使用该模型对测试集中的所有图片进行预测得到最终结果。引入精确率、召回率评估模型分类性能,并通过F1分数量化二者的均衡性,同时引入平均精度均值(mean average precision,mAP),通过计算精确率-召回率曲线下面积进行模型综合性能评估。其中mAP包含mAP@50(交并比>50%时的平均精度均值)和mAP@50-95(交并比50%~95%,每间隔5%计算精度均值取平均)两指标。

6.模型临床诊断效能验证:

采用敏感度、特异度、阳性预测值(positive predictive value,PPV)和阴性预测值(negative predictive value,NPV)进一步评估模型的临床诊断效能,并以单帧平均推断时间评估实时诊断效率。

结果

一、模型训练阶段结果

1.YOLO 11模型训练过程中模型性能验证结果:

在模型训练过程中,YOLO 11模型的训练和验证损失(box loss、cls loss和dfl loss)逐步下降并趋于稳定,精确率、召回率、mAP@50及mAP@50-95随着训练轮次稳步提升(图2)。精确率-召回率曲线右上角饱满,表明模型的精确率和召回率可以在较高数值处保持平衡;F1分数-置信度曲线表明,F1分数随着置信度的增加呈现先升高后下降趋势,在置信度约为0.6时F1分数达到峰值,且峰值F1分数较高,表明模型可以同时取得较高的精确率和召回率(图3)。
图2 YOLO 11模型训练与验证过程中各指标随训练轮次增加的变化趋势曲线图。所有图横坐标为训练轮次(次)。图a~c、f~h分别表示在训练集和验证集中损失函数随训练轮次的变化趋势曲线图,纵坐标分别为box损失值、cls损失值和dfl损失值;图d,e、i,j分别为验证集性能评估指标精确率、召回率、mAP@50、mAP@50-95随训练轮次的变化趋势曲线图

注:mAP为平均精度均值;box损失为框损失;cls损失为分类损失;dfl损失为自由形变损失;蓝色实线表示原始模型输出结果;橙色虚线为其经平滑处理后的趋势曲线

图3 YOLO 11模型检测骨折的精确率-召回率曲线图与F1分数-置信度曲线图。图a为精确率-召回率曲线图,其所有类别(骨折)在mAP@50的值为0.892;图b为F1分数-置信度曲线图,其所有类别(骨折)的最大F1分数为0.86,对应置信度为0.511

2.测试集YOLO 11与YOLOv8模型的性能比较:

分别对YOLO系列的两种模型进行了训练与性能评估,结果显示基于YOLO 11训练的骨折断端超声检测模型表现优异,精确率、召回率、F1分数、mAP@50分别为87.9%、85.3%、86.6%、89.2%。相较于YOLOv8对应的指标82.9%、74.3%、78.4%、81.9%,YOLO 11的各项指标均有较大提升。

二、模型临床验证阶段结果

1.两种目标检测模型在临床诊断验证集中的诊断效能比较:

在临床验证集中,YOLO 11相较于YOLOv8的敏感度与NPV提高(92.7% vs 83.9%,91.2% vs 82.8%);特异度与PPV略有下降(95.4% vs 98.0%,96.2% vs 98.2%);YOLO 11的单帧平均推理时间较YOLOv8略增加(42.5 ms vs 36.1 ms)。

2.模型对微骨折及不典型骨折的检测:

YOLO 11模型的预测框可准确检出断端,并且可以识别断端分离<3 mm的微骨折。然而,对不典型骨折断端(碎片样断端、骨皮质无分离、微小骨碎片、骨皮质局部隆起)存在漏检(图4)。
图4 基于YOLO 11的骨折断端超声检测模型对典型和非典型骨折的超声检测图像。图a~d为模型对典型骨折断端的超声检测图像,检测框精准检出骨折断端;图e~h为模型检出微骨折(断端分离<3 mm)的超声图像;图i~l分别为模型漏诊碎片样断端、骨皮质无明显分离、微小骨碎片及骨皮质局部隆起4种不典型骨折断端的超声图像

讨论

肢体骨折不仅严重影响患者生活质量,还易引发多种严重并发症,如骨折愈合不良、感染、骨不连及长期功能障碍等[14]。文献报道,老年患者,股骨骨折术后1年的死亡率高达25%[15]。因此,及时、准确的诊断对于制定治疗方案、减少并发症发生以及降低死亡率具有至关重要的意义。目前,X线和CT在临床中常规用于诊断骨折[16,17],而在儿童骨折评估[18]及院前急救等特定场景[19]下,超声凭借无辐射、实时动态成像等特点展现出独特优势。然而,超声诊断的准确性依赖医师的经验,这一局限性显著影响了其普及和推广应用。
YOLO 11算法由Ultralytics团队于2024年提出,是实时对象检测的最新版本,其通过优化特征提取骨干网络并引入创新模块(如C3K2和C2PSA模块)[20],保证在实时场景下取得优异的检测性能。本研究结果表明,YOLO 11在训练过程中,各损失函数(box loss、cls loss和dfl loss)在训练集和验证集均呈现稳定下降趋势,且随着训练轮次增加各项性能指标持续增长,表明模型可以对骨折断端进行有效学习,具备较强的学习能力。模型在验证集上的精确率-召回率曲线高位平衡、高置信度下F1分数优异,表明其既能有效减少骨折漏诊、误诊,检测结果亦具备高可信度。模型的训练、验证和测试阶段均表现出优异的性能。同时,模型通过多尺度特征优化增强了对小目标的检出能力,与YOLOv8模型比较,其测试阶段性能显著提升。本研究结果显示,模型对部分微骨折显示出较好的识别能力,具备为临床中X线较难诊断的隐匿性骨折提供补充性辅助诊断的潜力。然而,当前结果基于有限样本,具体漏检率与泛化性能仍需进一步结合更大样本量的临床研究验证。
临床验证集结果显示,YOLO 11的敏感度和NPV分别提高8.8%和8.4%,表明模型对骨折漏检率的降低,针对阴性病例的诊断可靠性增加,有利于骨折筛查,可以减少非必要的放射影像评估,且对儿童和孕妇群体尤为重要[21]。然而,特异度与PPV轻微下降,提示模型在降低假阴性率的同时可能增加假阳性率,此现象与超声图像中的伪影、肌腱及筋膜的界面易被模型误判为骨折相关。本研究的YOLO 11模型运算时间稍增加,约延长了6.4 ms(单帧平均运算时间42.5 ms),但仍可满足临床实时性需求,达到精度与推理速度间良好的平衡,尤其适用于院前或急诊骨折的早期筛查和诊断。通过YOLO 11能够快速定位骨折断端,显著缩短超声扫查时间,使之更适用于因疼痛或被动体位而难以长时间配合检查的患者。此外,YOLO 11能够在基于CPU和GPU的多种硬件平台上运行[22],显著拓宽了其应用领域。未来,该算法可部署至便携式掌上超声设备,通过5G技术实现远程诊断与会诊,优化院前救治流程,为基层医院及专业人员匮乏地区提供技术支持。
本研究尚存在一定局限性。首先,模型训练集样本量较小,数据来源单一,会对模型的临床泛化能力造成一定影响。其次,本研究未针对不同骨折类型(如微骨折、不典型骨折等)进行分层训练与验证,模型对部分不典型骨折类型的检测性能存在不足,后续拟通过多中心、大样本研究优化数据多样性,构建针对不同骨折类型的断端检测模型,验证并量化分析其诊断效能,以提升其辅助诊断的临床适用性。
综上所述,YOLO 11模型可以快速、准确识别骨折断端,其在辅助成人肢体长骨骨折的超声诊断中具有一定的应用价值。

傅小芳,杨青翰,孙昌琴,等.基于YOLO 11的肢体长骨骨折断端超声检测模型的临床价值[J/OL].中华医学超声杂志(电子版), 2025, 22(6): 541-546.

1
Snelling PJ, Jones P, Bade D, et al. Ultrasonography or radiography for suspected pediatric distal forearm fractures[J]. N Engl J Med, 2023, 388(22): 2049-2057.

2
Du MJ, Lin YH, Chen WT, et al. Advances in the application of ultrasound for fracture diagnosis and treatment[J]. Eur Rev Med Pharmacol Sci, 2022, 26(21): 7949-7954.

3
吕发勤, 黄钰清, 刘义灏, 等. 超声技术在特殊环境的应用及其前景[J/CD]. 中华医学超声杂志(电子版), 2019, 16(12): 885-888.

4
Stucchi R, Weinstein ES, Ripoll-Gallardo A, et al. Impact of point-of-care ultrasound on secondary triage: a pilot study[J]. Disaster Med Public Health Prep, 2022, 17: e194.

5
Moritz JD. Sonographic fracture diagnosis in children and adolescents[J]. Rofo, 2023, 195(9): 790-796.

6
Bae J, Yu S, Oh J, et al. External validation of deep learning algorithm for detecting and visualizing femoral neck fracture including displaced and non-displaced fracture on plain X-ray[J]. J Digit Imaging, 2021, 34(5): 1099-1109.

7
Inoue T, Maki S, Furuya T, et al. Automated fracture screening using an object detection algorithm on whole-body trauma computed tomography[J]. Sci Rep, 2022, 12(1): 16549.

8
Benjamens S, Dhunnoo P, Meskó B. The state of artificial intelligence-based FDA-approved medical devices and algorithms: an online database[J]. NPJ Digit Med, 2020, 3: 118.

9
Tulbure AA, Tulbure AA, Dulf EH. A review on modern defect detection models using DCNNs - deep convolutional neural networks[J]. J Adv Res, 2021, 35: 33-48.

10
Wu X, Tan G, Zhu N, et al. CacheTrack-YOLO: Real-time detection and tracking for thyroid nodules and surrounding tissues in ultrasound videos[J]. IEEE J Biomed Health Inform, 2021, 25(10): 3812-3823.

11
Li W, Ye X, Chen X, et al. A deep learning-based method for the detection and segmentation of breast masses in ultrasound images[J]. Phys Med Biol, 2024, 69(15).

12
Zhang H, Zhao F. Deep learning-based carotid plaque ultrasound image detection and classification study[J]. Rev Cardiovasc Med, 2024, 25(12): 454.

13
刘韩, 王胰, 舒庆兰, 等. 基于深度学习的超声心动图三尖瓣反流严重程度智能评估方法研究[J/OL]. 中华医学超声杂志(电子版), 2024, 21(2): 121-127.

14
Ziegler P, Bahrs C, Konrads C, et al. Ankle fractures of the geriatric patient: A narrative review[J]. EFORT Open Rev, 2023, 8(1): 1-10.

15
Aprato A, Bechis M, Buzzone M, et al. No rest for elderly femur fracture patients: Early surgery and early ambulation decrease mortality[J]. J Orthop Traumatol, 2020, 21(1): 12.

16
Einstein AJ. Medical imaging: the radiation issue[J]. Nat Rev Cardiol, 2009, 6(6): 436-438.

17
Alzen G, Benz-Bohm G. Radiation protection in pediatric radiology[J]. Dtsch Arztebl Int, 2011, 108(24): 407-414.

18
Delniotis I, Bontinis V, Ktenidis K, et al. Diagnostic accuracy of ultrasound versus X-ray for distal forearm fractures in children and adolescents: a systematic review and meta-analysis[J]. Eur J Trauma Emerg Surg, 2024, 50(6): 2649-2662.

19
Mercer CB, Ball M, Cash RE, et al. Ultrasound use in the prehospital setting for trauma: a systematic review[J]. Prehosp Emerg Care, 2021, 25(4): 566-582.

20
Sazak H, Kotan M. Automated blood cell detection and classification in microscopic images using YOLOv11 and optimized weights[J]. Diagnostics (Basel), 2024, 15(1): 22.

21
Williamson D. Ultrasound imaging of forearm fractures in children: a viable alternative?[J]. 2000, 17(1): 22-24.

22
Jørgensen H, Jensen CH, Dirks J. Does prehospital ultrasound improve treatment of the trauma patient? A systematic review[J]. Eur J Emerg Med, 2010, 17(5): 249-253.

文章导航

/


AI


AI小编
你好!我是《中华医学电子期刊资源库》AI小编,有什么可以帮您的吗?