

你知道吗?一位放射科医生平均需要耗费20分钟,仔细审视数百张切片,才能完成一次腹部CT的解读!
这还不是最惊人的——全球每年这样的场景要上演3亿次!仅仅腹部CT就占了总量的四分之一!
更让人揪心的是:预计到2036年,全球放射科医生的缺口将超过19000人!
医疗资源紧张,患者等待时间长,医生工作压力大...这些问题有没有解决方案?
今天,来自斯坦福大学的研究团队在Nature期刊上发表了一项重磅成果!
一个名为Merlin的3D视觉-语言模型(VLM),彻底改变了医学影像分析的规则!
这个模型有多厉害?让我告诉你几个关键点:
论文链接:https://www.nature.com/articles/s41586-026-10181-8
Merlin到底是什么?它能做什么?
简单说,这是一个能直接理解和处理完整腹部CT容积数据的智能系统!它的训练策略采用了高效的弱监督学习框架,完全规避了对昂贵人工标注数据的依赖。
训练数据规模宏大得惊人:
通过对这些现有数据的挖掘,Merlin实现了自我学习,极大地降低了数据获取的门槛和成本!
研究团队在六大类任务、共计752个具体子任务的基准测试中,对Merlin进行了全方位评估!
结果让人震撼:
经过微调的Merlin同样表现出色:
即使仅使用少量标签,Merlin也能准确预测患者未来5年内患慢性病的风险!
Merlin生成的报告在结构完整性和质量上均优于现有的RadFM等基线模型!
当仅使用10%的训练数据时,Merlin的分割效果已超越了专业分割模型nnU-Net!
这展现了其在低数据资源环境下的巨大优势!
Merlin不仅在内部测试集上表现优异,在严格的验证环节中也展现了强大的鲁棒性与泛化潜力!
研究团队在3个外部医疗机构的44098次CT扫描上对模型进行了验证!
结果显示,即使面临:
Merlin依然保持了高性能,未出现明显的性能衰退!
这才是最惊人的!
Merlin仅在腹部CT数据上训练,但在胸部CT的测试评估中,其表现击败了专门针对胸部CT训练的基础模型!
这强有力地证明了Merlin所习得的3D特征表征具有极强的通用性和迁移能力!
通过与最先进的模型进行系统比较,结果明确表明:
对比的模型包括:
Merlin的出现不仅是一次技术上的胜利,更预示着临床工作流程的深刻变革!
在实际应用层面,该模型有望成为放射科医生的得力助手:
通过自动化生成结构化报告,大幅降低重复性劳动带来的工作负荷!
帮助进行准确的诊断编码(ICD编码),有效减少人为计费错误!
快速检索相似历史病例,提高诊断准确性和效率!
Merlin能够从复杂的3D体积数据中深度挖掘那些在常规阅片过程中极易被忽视的早期疾病生物标志物!
从行业发展的宏观视角来看,Merlin的研究成果为医学人工智能的训练范式提供了重要启示!
对比实验结果强有力地证明了:
相比于单纯的“图像自监督学习”,利用自然语言进行“视觉-语言对齐”能够提供更为丰富且高效的监督信号!
这能学习到更具泛化性的特征表征!
为了推动整个医学AI社区的共同进步,研究团队秉持开放科学的精神:
这一举措将为全球研究人员提供宝贵的资源,加速3D医学视觉-语言模型及其下游应用的研发与创新!
想象一下未来的医疗场景: