基于DeepSeek大语言模型的胃癌和直肠癌超声报告结构化及T分期自动评估研究

张振奇; 卢漫; 齐艺涵; 庄敏; 胡紫玥; 王璐

doi:10.3877/cma.j.issn.1672-6448.2025.11.009

中华医学超声杂志（电子版） >

2025 , Vol. 22 >Issue 11: 1055 - 1061

DOI: https://doi.org/10.3877/cma.j.issn.1672-6448.2025.11.009

腹部超声影像学

基于DeepSeek大语言模型的胃癌和直肠癌超声报告结构化及T分期自动评估研究

张振奇 ,
卢漫 ,
齐艺涵 ,
庄敏 ,
胡紫玥 ,
王璐 ^,^†

展开

610041　成都，四川省肿瘤医院·研究所　四川省肿瘤临床医学研究中心　四川省癌症防治中心　电子科技大学附属肿瘤医院

通信作者：

王璐，Email：wanglu1@scszlyy.org.cn

Copy editor: 汪荣

收稿日期: 2025-08-25

网络出版日期: 2026-02-12

基金资助

国家重点研发计划(2019YFE0196700)

国家自然科学基金(82272015)

四川省区域创新合作项目(2024YFHZ0140)

版权

未经授权，不得转载、摘编本刊文章，不得使用本刊的版式设计，除非特别声明，本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。本刊为电子期刊，以网刊形式出版。

收起

Utility of DeepSeek large language models for structured ultrasound reporting and automated tumor staging in gastric and rectal cancer

Zhenqi Zhang ,
Man Lu ,
Yihan Qi ,
Ming Zhuang ,
Ziyue Hu ,
Lu Wang ^,^†

Expand

Sichuan Clinical Research Center for Cancer, Sichuan Cancer Hospital & Institute, Sichuan Cancer Center, University of Electronic Science and Technology of China, Chengdu 610041, China

Corresponding author:

Wang Lu, Email: wanglu1@scszlyy.org.cn

Received date: 2025-08-25

Online published: 2026-02-12

Copyright

No content published by the journals of Chinese Medical Association may be reproduced or abridged without authorization. Please do not use or copy the layout and design of the journals without permission.

All articles published represent the opinions of the authors, and do not reflect the official policy of the Chinese Medical Association or the Editorial Board, unless this is clearly specified.

Fold

摘要

目的

探讨DeepSeek大语言模型在胃癌和直肠癌超声报告结构化及T分期自动评估中的应用价值。

方法

本研究纳入四川省肿瘤医院2023年1月至2024年12月进行的胃癌和直肠癌超声检查报告共121份。由资深超声医师团队制定胃癌和直肠癌超声报告结构化模板，使用DeepSeek R1和V3模型进行结构化信息提取和T分期评估。采用召回率、精确率和F1分数评估结构化报告生成的性能，并以准确性评估T分期性能。邀请3位医师对比评估DeepSeek生成的报告与原始报告，评价其在审阅效率和临床易用性方面的表现。

结果

DeepSeek R1与V3模型在结构化信息提取方面召回率、精确率和F1分数均高于0.9，二者差异均无统计学意义（P均＞0.05）。在T分期评估中，采用推理模式的DeepSeek R1模型准确性最高，达到76.86%，显著优于DeepSeek V3模型的59.50%，二者差异具有统计学意义（χ²=8.51，P＜0.05）。与审阅原始报告所需的平均时间[（60.96±6.11）s/份]相比，审阅DeepSeek R1[（18.12±4.52）s/份]（t=60.38；P＜0.001）和DeepSeek V3[（17.15±2.60）s/份]（t=71.98；P＜0.001）生成的结构化报告所需时间缩短。5分李克特量表评分结果显示，原始报告的评分为3（3，3）分，而DeepSeek R1和V3报告的评分分别为1（1，2）分（Z=-9.72；P＜0.001）和1（1，2）分（Z=-9.95；P＜0.001），差异具有统计学意义。

结论

DeepSeek大语言模型，特别是R1版本，可有效从胃癌和直肠癌超声报告中提取结构化信息，并在T分期评估方面展现出较高的准确性，其生成的报告有助于提高审阅效率，并具有辅助临床决策的潜力。

关键词： 大语言模型; DeepSeek; 胃肠超声; 结构化报告; 肿瘤分期; 人工智能

本文引用格式

张振奇 , 卢漫 , 齐艺涵 , 庄敏 , 胡紫玥 , 王璐 . 基于DeepSeek大语言模型的胃癌和直肠癌超声报告结构化及T分期自动评估研究[J]. 中华医学超声杂志（电子版）, 2025 , 22(11) : 1055 -1061 . DOI: 10.3877/cma.j.issn.1672-6448.2025.11.009

Abstract

Objective

To investigate the utility of the DeepSeek large language model (LLM) in the structured generation of ultrasound reports and the automatic assessment of T-staging for gastric and rectal cancer.

Methods

A total of 121 ultrasound examination reports for gastric and rectal cancer, collected from Sichuan Cancer Hospital between January 2023 and December 2024, were included in this study. A structured template for gastric and rectal cancer ultrasound reports was developed by a team of senior sonographers. The DeepSeek R1 and V3 models were employed to extract structured information and assess T-staging. The performance of structured report generation was evaluated using recall, precision, and F1 score, while T-staging performance was assessed based on accuracy. Three physicians were invited to compare the reports generated by DeepSeek with the original reports to evaluate review efficiency and clinical usability.

Results

Regarding structured information extraction, both DeepSeek R1 and V3 models achieved recall, precision, and F1 scores exceeding 0.9, with no statistically significant differences between the two (P＞0.05). In T-staging assessment, the DeepSeek R1 model (utilizing reasoning mode) achieved the highest accuracy of 76.86%, which was significantly superior to the 59.50% achieved by the DeepSeek V3 model (χ²=8.51, P＜0.05). Compared to the average time required to review original reports [(60.96±6.11) s/report], the review time for structured reports generated by DeepSeek R1 [(18.12±4.52) s/report] (t=60.38; P＜0.001) and DeepSeek V3 [(17.15±2.60) s/report] (t=71.98; P＜0.001) was significantly shortened. The 5-point Likert scale evaluation showed that the score for the original reports was 3 (3, 3), while the scores for the DeepSeek R1 and V3 reports were 1 (1, 2) (Z=-9.72; P＜0.001) and 1 (1, 2) (Z=-9.95; P＜0.001), respectively, indicating a statistically significant difference.

Conclusion

The DeepSeek large language models, particularly the R1 version, can effectively extract structured information from gastric and rectal cancer ultrasound reports and demonstrates high accuracy in T-staging assessment. The generated reports contribute to improved review efficiency and possess the potential to assist in clinical decision-making.

Key words： Large language model; DeepSeek; Gastrointestinal ultrasound; Structured reporting; Tumor staging; Artificial intelligence

胃癌及直肠癌的早期诊断和准确分期对治疗方案选择及预后评估至关重要。胃肠超声因具有无创、便捷、实时动态等优点，在胃肠疾病筛查和诊断中应用广泛^［1］。然而，目前大部分胃肠肿瘤超声报告以自由文本形式呈现，其信息记录的规范性和完整性受限于操作者经验和习惯^［2］，这不仅导致临床关键信息的提取效率低下，还可能因不同医师间的解读差异而影响临床决策的一致性与准确性，尤其是在肿瘤分期等复杂判断方面。

结构化报告通过标准化模板记录关键影像学特征，已被证实能提高报告质量和临床沟通效率。但其推广仍面临着超声科医师接受度不高、工作负担增加等问题。近年来，大语言模型（large language models，LLMs）在自然语言处理领域取得了突破性的进展，在医学文本理解、信息提取和辅助诊断等方面展现出良好的应用前景^［3,4,5］。已有研究表明，LLMs如GPT-4能在胰腺癌CT报告的结构化及甲状腺超声报告判断中取得良好效果^［6-7］。

DeepSeek系列是国内自主研发的LLMs，目前已经在医学领域有了初步的应用^［8,9,10］，但其在医学影像报告结构化及辅助诊断中的应用尚未见报道。因此，本研究旨在探索国产DeepSeek系列LLMs（R1和V3版本）在胃肠肿瘤超声报告自动化处理中的应用价值。主要目标包括：（1）评估DeepSeek模型从原始胃癌和直肠癌超声报告中自动提取关键影像学特征并生成结构化报告的性能；（2）探索DeepSeek模型基于提取的特征自动进行初步胃癌和直肠癌T分期的准确性；（3）通过临床医师的实际应用反馈，对DeepSeek模型生成报告的临床信息提取效率及易用性进行评估。

资料与方法

一、研究设计与数据来源

本研究纳入四川省肿瘤医院2023年1月至2024年12月进行的胃癌和直肠癌超声检查报告共121份。纳入标准：（1）完整完成胃或直肠超声检查。（2）报告完整录入系统中。（3）报告医师完成电子签名认证。本研究通过四川省肿瘤医院伦理委员会批准（批件号：KY-2025-222-02），所有报告均经过严格的匿名化处理，由于数据已严格脱敏处理，伦理委员会批准豁免签署患者书面知情同意书。

二、参考标准建立

1.结构化胃肠超声特征定义：由3名经验丰富的超声科副主任医师及以上职称的医师组成专家组，共同商议并制定胃肠肿瘤超声报告的结构化模板。该模板包含10项特征：（1）检查部位（胃底、胃体、胃窦、直肠）；（2）黏膜层情况（阴性：光滑；阳性：毛糙、增厚、糜烂、凹陷、中断）；（3）肌层情况（阴性：均匀；阳性：增厚、中断、低回声）；（4）浆膜层情况（阴性：光滑；阳性：毛糙、受侵、中断）；（5）肠壁或胃壁厚度（具体数值mm，描述“正常”“增厚”）；（6）蠕动情况（阴性：正常，异常：活跃、减弱、消失、逆蠕动）；（7）占位性病变（如有）：大小（mm× mm× mm）、形态（如类圆形、不规则形、息肉样、溃疡型、浸润型）、边界（清晰、模糊、尚清）、回声（如低回声、等回声、高回声、不均匀回声）、内部血流（血流信号采用Adler半定量法进行分级0~Ⅲ级）；（8）淋巴结（如有）：部位、大小、形态（如椭圆形、圆形、不规则）、皮髓质结构（清晰、模糊、消失）、血流（血流信号采用Adler半定量法进行分级0~Ⅲ级）；（9）腹水（有、无；量：少量、中量、大量；部位）；（10）其他发现（除以上之外的其他内容）。

2. T分期参考标准：专家组依据美国癌症联合委员会（American Joint Committee on Cancer，AJCC）第8版《AJCC癌症分期手册》^［11］中关于胃肠道肿瘤超声T分期的标准，结合原始报告描述和图像，对每份涉及肿瘤的报告进行T分期判定（Tx，T0，T1a，T1b，T2，T3，T4a，T4b）。2名医师独立完成特征提取和T分期标注，结果不一致时交由另一名资深医师复核裁定。

三、LLMs结构化报告生成及T分期自动评估

本研究选用北京深度求索科技有限公司开发的DeepSeek系列LLMs，具体实验版本为DeepSeek R1（671B参数版）和 DeepSeek V3（671B参数版）。通过应用程序接口（application programming interface，API）调用模型，确保数据传输和处理的安全性。整个流程使用Python编程语言编写自动化脚本进行操作，其核心参数设置为：temperature设定为0.3，以降低输出的随机性，确保结果的稳定性与可复现性；max_tokens设置为2000，确保其能够完整地返回对每一份报告的全面分析。

针对DeepSeek R1和V3模型，分别设计提示词（Prompt）。DeepSeek R1模型提示词为：这是一份胃肠超声报告，请帮我生成结构化的报告，结构化报告模板如下：［结构化报告］（与上文一致），请根据超声描述，一步一步分析并推理出最可能的T分期，请仔细检查，生成的报告要精简、完整，请直接生成报告，前面不需要过多描述。DeepSeek V3模型提示词为：这是一份胃肠超声报告，请帮我生成结构化的报告，结构化报告模板如下：［结构化报告］（与上文一致），请根据超声描述，直接判断T分期，请仔细检查，生成的报告要精简、完整，请直接生成报告，前面不需要过多描述。

将原始报告分别输入两个模型进行处理，收集生成的结构化报告（图1）。

显示原图|下载原图ZIP|生成PPT

图1 使用DeepSeek R1和V3模型生成结构化报告处理流程图

注：API为应用程序接口

四、性能评估指标

1结构化报告生成：比较模型提取的10项特征与人工参考标准，计算召回率（Recall）、精确率（Precision）和F1分数。同时评估真阳性提取内容的准确性。主要指标定义如下：（1）真阳性（true positive，TP）：对于参考标准中存在的特征，模型成功提取了该特征，且核心内容正确。对于“占位性病变”和“淋巴结”等复合字段，只要模型提取出了该病变的存在及其一项或多项核心属性，即视为一个TP。对于“黏膜层情况”等多描述词字段，只要模型提取的描述词与参考标准中至少有一个相符，即视为一个TP。（2）假阳性（false positive，FP）：对于参考标准中不存在的特征，模型错误地提取了内容（幻觉）；模型提取的特征内容与参考标准完全不符。（3）假阴性（false negative，FN）：对于参考标准中存在的特征，模型未能提取出任何内容。（4）真阴性（true negative，TN）：对于参考标准中不存在的特征，模型也正确地未提取出任何内容。主要计算公式如下：精确率=真阳性/（真阳性+假阳性）；召回率=真阳性/（真阳性+假阴性）；F1分数=2×（精确率×召回率）/（精确率+召回率）；真阳性提取准确性=内容完全正确的真阳性数量/总真阳性数量×100%。

2. T分期评估：比较模型预测的T分期与人工参考标准，计算总体准确性。

3.临床医师验证与反馈：为评估LLMs生成报告的临床实用性，额外招募3名具有5年以上工作经验的主治及以上职称医师参与本阶段验证。这些医师未参与前期参考标准的建立。本研究旨在评估原始报告与模型生成报告在信息提取效率与易用性方面的表现。为控制潜在偏倚，研究设计如下：首先，所有报告（包括原始报告和两种模型生成的报告）对每位评估医师的呈现顺序均进行随机化。其次，为消除医师对同一病例细节的记忆效应，每位医师在评估关于同一病例的不同类型报告时，两次评估的间隔时间设定为至少2周（洗脱期）。分别记录医师审阅每份报告并提取10项特征所花费的时间。通过问卷形式，请医师对两种报告在信息提取便捷性方面进行评分（采用5分李克特量表：1分为非常便捷，2分为比较便捷，3分为一般，4分为比较不便捷，5分为非常不便捷）。同时请医师对DeepSeek生成报告的优缺点、改进建议等进行反馈，并询问在日常工作中更倾向于使用哪种报告进行初步审查。

五、统计学分析

本研究采用SPSS 29.0（IBM）软件进行统计学分析。符合正态分布的计量资料以

x ¯

±s表示，审阅时间2组间比较采用配对t检验；李克特量表评分为不符合正态分布的计量资料，以M（Q₁，Q₃）表示，组间比较采用Wilcoxon符号秩检验；计数资料以例（%）表示。采用McNemar检验比较DeepSeek R1与V3模型在结构化信息提取（召回率、精确率、F1分数及真阳性提取准确性）及T分期评估（准确性）性能上的差异。以P＜0.05为差异具有统计学意义。

结果

一、纳入超声报告的一般情况

本研究共纳入胃肠超声检查报告121份，其中包含73份胃肿瘤超声报告及48份肠肿瘤超声报告（表1）。

表1 胃肠超声报告的一般情况 [n=121，例（%）]

项目	数值	项目	数值
报告类别		71~80岁	25（20.7）
胃癌超声报告	73（60.3）	≥81岁	3（2.5）
直肠癌超声报告	48（39.7）	T分期
性别		T0	3（2.5）
男	89（73.6）	T1a	2（1.6）
女	32（26.4）	T1b	1（0.8）
年龄		T2	31（25.6）
≤40岁	4（3.3）	T3	13（10.7）
41~50岁	11（9.1）	T4a	65（53.7）
51~60岁	38（31.4）	T4b	6（5.0）
61~70岁	40（33.1）

二、结构化报告生成及其性能

DeepSeek R1和V3模型均能根据原始报告完整地生成结构化报告（图2）。

显示原图|下载原图ZIP|生成PPT

图2 胃肠超声原始报告经DeepSeek模型处理生成的结构化报告示例

注：CDFI为彩色多普勒血流成像；PSV为收缩期峰值流速；RI为阻力指数

本研究进一步对DeepSeek R1和V3模型生成的结构化信息进行四格表统计以评估模型生成超声报告的性能（表2）。在四格表统计基础上，本研究进一步计算召回率、精确率和F1分数。同时评估真阳性提取内容的准确性。在肌层情况方面，R1的召回率（0.975）略低于V3（0.992）；在占位性病变方面，V3的召回率（0.992）略低于R1（1.000）；R1与V3模型在各项指标上均高于0.9，二者差异均无统计学意义（P均＞0.05，表3）。

表2 DeepSeek R1与V3模型生成的结构化报告信息提取性能评估四格表（份）

指标	TP	FN	总数
检查部位（R1模型）	121	0	121
检查部位（V3模型）	121	0	121
黏膜层情况（R1模型）	121	0	121
黏膜层情况（V3模型）	121	0	121
肌层情况（R1模型）	118	3	121
肌层情况（V3模型）	120	1	121
浆膜层情况（R1模型）	118	3	121
浆膜层情况（V3模型）	118	3	121
肠壁或胃壁厚度（R1模型）	121	0	121
肠壁或胃壁厚度（V3模型）	121	0	121
蠕动情况（R1模型）	121	0	121
蠕动情况（V3模型）	121	0	121
占位性病变（R1模型）	121	0	121
占位性病变（V3模型）	120	1	121
淋巴结（R1模型）	121	0	121
淋巴结（V3模型）	121	0	121
腹水情况（R1模型）	121	0	121
腹水情况（V3模型）	121	0	121
其他发现（R1模型）	121	0	121
其他发现（V3模型）	121	0	121

注：TP为真阳性；FP为假阳性；FN为假阴性；TN为真阴性

表3 DeepSeek R1与V3模型结构化信息提取的性能比较

指标	召回率		精确率		F1分数		真阳性提取准确性		χ²值	P值
指标	R1模型	V3模型	R1模型	V3模型	R1模型	V3模型	R1模型	V3模型	χ²值	P值
检查部位	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	N/A	＞0.05
黏膜层情况	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	N/A	＞0.05
肌层情况	0.975	0.992	1.000	1.000	0.987	0.996	1.000	1.000	0.25	＞0.05
浆膜层情况	0.975	0.975	1.000	1.000	0.987	0.987	1.000	1.000	0.25	＞0.05
肠壁或胃壁厚度	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	N/A	＞0.05
蠕动情况	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	N/A	＞0.05
占位性病变	1.000	0.992	1.000	1.000	1.000	0.996	0.936	0.940	0.00	＞0.05
淋巴结	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	N/A	＞0.05
腹水	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	N/A	＞0.05
其他发现	1.000	1.000	1.000	1.000	1.000	1.000	1.000	1.000	N/A	＞0.05

注：P值为 R1 与 V3 在该要素逐例正确/错误（配对二分类）差异的检验结果，采用 McNemar 检验，χ²为连续性校正McNemar统计量；当不一致对数较少时，P值采用精确McNemar检验（双侧）；N/A表示2组模型在该指标上提取结果完全一致（如均为1），无差异，故无法计算统计量

三、T分期自动评估性能

在T分期评估的准确性上，DeepSeek R1模型表现出明显优势，准确性为76.86%（93/121），显著优于V3模型的59.50%（72/121），二者差异具有统计学意义（χ²=8.51，P＜0.05）。

四、医师验证与反馈结果

临床专家验证结果显示，由DeepSeek模型生成的结构化报告在审阅效率和信息提取便捷性方面均展现出显著优势。

在审阅效率上，与审阅原始报告所需的平均时间［（60.96±6.11）s /份］相比，审阅DeepSeek R1［（18.12±4.52）s /份］（t=60.38；P＜0.001）和DeepSeek V3［（17.15±2.60）s /份］（t=71.98；P＜0.001）生成的结构化报告所需时间均大幅缩短，差异具有统计学意义。

在信息提取便捷性方面也观察到同样趋势。依据5分李克特量表（分数越低越便捷），原始报告的评分为3（3，3）分，而DeepSeek R1和V3报告的评分则显著更优，分别为1（1，2）分（Z=-9.72；P＜0.001）和1（1，2）分（Z=-9.95；P＜0.001），差异具有统计学意义。

在主观评估方面，DeepSeek生成的结构化报告获得了医师们的高度认可。所有参与验证的医师均表示，在初步审查时更倾向于使用结构化报告。定性反馈显示，医师认为该报告条理清晰、关键信息一目了然，能有效帮助快速把握病情。同时，医师们也提出了宝贵的改进建议，希望模型能进一步提升对特定描述（例如“占位性病变”）提取的精确度。

讨论

近年来，人工智能逐渐应用于疾病诊断与筛查、医学影像分析、药物研发与个性化治疗等医学领域^{［12,13,14］}，LLMs是人工智能发展的重要分支，目前也在医学领域展现出巨大潜力，并在医学教育、临床决策支持、医患沟通、医学知识问答与科普、病历分析与信息提取等方面显示出初步的应用价值^{［15,16,17,18］}。

DeepSeek作为国产LLMs，在医学领域展现出巨大潜力^［19］，本研究初步探讨了DeepSeek系列LLMs在胃肠肿瘤超声报告结构化处理和辅助T分期中的应用价值。研究发现，DeepSeek R1和V3在结构化信息提取方面展现出优异的性能，召回率、精确率和F1分数均高于0.9。在T分期任务中，采用推理模式的DeepSeek R1模型准确性达到了76.86%，显示出较强的复杂推理能力。

值得注意的是，本研究引入了临床医师验证环节。结果显示，使用LLMs处理后的报告审阅效率得到了显著提升。该发现与Bhayana等^［6］的结论相符，其研究表明，LLMs生成的胰腺癌CT报告能帮助外科医师做出更准确、高效的评估。医师对LLMs报告的易用性给予了积极评价，认为其有助于快速定位关键信息，这表明LLMs在优化临床工作流程方面具有实际价值。

与此前基于GPT系列模型在胰腺癌CT报告中的研究相比，本研究关注于胃肠超声这一不同影像模态和病种，并验证了国产DeepSeek模型的性能。结果表明，通过精心设计的提示和先进的LLMs架构，即使是对于描述相对灵活、细节丰富的超声报告，LLMs也能够实现高效的信息提取和初步的临床判断辅助。

在T分期任务中，推理模型的优越性再次得到证实。这表明对于需要多步骤推理的复杂医学任务，引导LLMs模仿人类专家的推理过程是提高其性能的关键。这可能为未来开发更智能的临床决策支持系统提供基础。

本研究亦存在一些局限性。首先，本研究为单中心回顾性研究，有限的样本量可能引入选择偏倚，尤其是在T分期判断上，在稀有类别上的性能评估不够充分，总体准确性可能在一定程度上受到影响。未来的研究需要纳入样本量更大、分期分布更均衡的数据集。其次，超声报告的描述本身存在一定的主观性和不确定性，这为LLMs分析的准确性设定了内在的上限。虽然本研究采用了严格的参考标准建立流程，但完全消除解读差异仍面临挑战。第三，本研究未评估LLMs处理图像本身的潜力，仅限于文本报告分析。第四，尽管DeepSeek模型表现良好，但仍可能产生“幻觉”或临床上不可接受的错误^［20］，因此在实际应用中，人工审核和监督必不可少。医师验证阶段的样本量也相对有限，未来需要更大范围的临床医师参与评估。

未来的研究方向可以包括：（1）在更大规模、多中心的数据集上验证模型的鲁棒性和泛化能力，与国外团队合作，与ChatGPT、Claude等其他模型进行横向比较；（2）探索LLMs与超声图像模态融合的多模态模型，以期进一步提高分期准确性；（3）将LLMs工具嵌入到超声医师的实际工作流程中，评估其对工作效率和诊断质量的实际影响；（4）针对LLMs可能出现的“幻觉”和错误，研究更有效的检测和纠正机制；（5）根据临床医师的反馈，持续优化结构化模板的内容和LLMs的信息提取逻辑。

本研究表明，DeepSeek（特别是R1推理模式）能高效、准确地提取胃肠肿瘤超声报告的结构化信息，并在肿瘤T分期初步评估中展现出良好潜力。临床专家验证进一步证实，模型生成的结构化报告在保持阅读准确性的同时，能显著提高医师的审阅效率，展现了较高的临床可接受性与重要的辅助应用价值。

张振奇, 卢漫, 齐艺涵, 等. 基于DeepSeek大语言模型的胃癌和直肠癌超声报告结构化及T分期自动评估研究[J/OL]. 中华医学超声杂志(电子版), 2025, 22(11): 1055-1061.

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

1	袁坤山, 王如蒙, 张淑欣, 等.口服胃肠超声助显剂的研究进展[J/OL].中华医学超声杂志(电子版), 2020, 17(6): 587-590.

2	宋勇, 张伟, 李锐, 等.PDCA循环法在降低超声测量数值错误报告中的应用价值[J].临床超声医学杂志, 2023, 25(8): 650-653.

3	Woźnicki P, Laqua C, Fiku I, et al.Automatic structuring of radiology reports with on-premise open-source large language models [J]. Eur Radiol, 2025, 35(4): 2018-2029.

4	Tang W, Pei C, Yu P, et al.Generating Chinese radiology reports from X-ray images: a public dataset and an X-ray-to-reports generation method [C]. International Conference on Medical Image Computing and Computer-Assisted Intervention.Cham: Springer Nature, 2023: 79-88.

5	Reichenpfader D, Müller H, Denecke K. A scoping review of large language model based approaches for information extraction from radiology reports [J].NPJ Digit Med, 2024, 7(1): 222.

6	Bhayana R, Nanda B, Dehkharghanian T, et al.Large language models for automated synoptic reports and resectability categorization in pancreatic cancer [J]. Radiology, 2024, 311(3): e233117.

7	秦赛梅, 文琼, 段依恋, 等.对比通义千问2.5与GPT-4o模型生成的甲状腺超声结构化报告[J].中国医学影像技术, 2025, 41(3): 409-413.

8	Sandmann S, Hegselmann S, Fujarski M, et al.Benchmark evaluation of DeepSeek large language models in clinical decision-making [J]. Nat Med, 2025, 31(8): 2546-2549.

9	Tordjman M, Liu Z, Yuce M, et al.Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning [J]. Nat Med, 2025, 31(8): 2550-2555.

10	Chen J, Miao C.DeepSeek deployed in 90 Chinese tertiary hospitals: How artificial intelligence is transforming clinical practice [J]. J Med Syst, 2025, 49(1): 53.

11	Amin MB, Edge SB, Greene FL, et al. AJCC Cancer staging manual[M]. 8th ed. New York: Springer, 2017.

12	张梅芳, 谭莹, 朱巧珍, 等.早孕期胎儿头臀长正中矢状切面超声图像的人工智能质控研究[J/OL].中华医学超声杂志(电子版), 2023, 20(9): 945-950.

13	朱巧珍, 谭莹, 张梅芳, 等.妊娠早期胎儿心脏人工智能质控模型的研究与应用[J].中华超声影像学杂志, 2023, 32(11): 952-958.

14	孙舒涵, 陈雅静, 宗晴晴, 等.基于超声的深度学习列线图预测乳腺癌新辅助化疗后腋窝淋巴结状态的研究[J/OL].中华医学超声杂志(电子版), 2025, 22(2): 97-105.

15	Liu F, Zhou H, Gu B, et al.Application of large language models in medicine [J]. Nature Reviews Bioengineering, 2025: 445-464.

16	Johnson D, Goodman R, Patrinely J, et al.Assessing the accuracy and reliability of AI-generated medical responses: an evaluation of the Chat-GPT model [J]. Res Sq, 2023: rs.3.rs-2566942.

17	Caruccio L, Cirillo S, Polese G, et al.Can ChatGPT provide intelligent diagnoses? A comparative study between predictive models and ChatGPT to define a new medical diagnostic bot [J]. Expert Systems with Applications, 2024, 235: 121186.

18	谭浩, 王力, 王军永, 等.技术与社会的视角探析ChatGPT对医学的影响[J].医学与哲学, 2024, 45(5): 15-20.

19	闫温馨, 刘珏, 梁万年.DeepSeek赋能全科医学: 潜在应用与展望[J].中国全科医学, 2025, 28(17): 2065-2069.

20	刘泽垣, 王鹏江, 宋晓斌, 等.大型语言模型的幻觉问题研究综述[J].软件学报, 2025, 36(3): 1152-1185.

Options

文章导航

模态框（Modal）标题

摘要