外科手术流程解析是计算机辅助外科干预系统实现智能环境感知的核心任务,可以提高手术的安全性,降低手术并发症。从图像中精确识别<手术器械—手术动作—手术目标>的手术动作三元组是外科手术流程细粒度解析的关键。
在腹腔镜手术视频中,一帧画面可能出现多个三元组,例如<抓夹,夹持,胆囊>, <钩子,离断,胆囊>。这些三元组具有时间依赖性,并且不同三元组之间的相似度高,给深度学习模型的识别造成了极大的困难。
近日,中国科学院深圳先进技术研究院医工所医学人工智能研究中心针对手术动作三元组识别问题,提出了一种多任务细粒度时空网络模型,实现了对腹腔镜胆囊切除手术视频的动作三元组有效识别,达到了当前最优性能。研究成果以MT-FiST: A Multi-Task Fine-grained Spatial-Temporal Framework for Surgical Action Triplet Recognition为题,发表在生物医学工程领域著名期刊IEEE Journal of Biomedical and Health Informatics(中科院1区,SCI IF=7.7)。硕士研究生李语翀、夏彤为共同第一作者,贾富仓研究员为通讯作者。
在手术动作三元组中,每个任务中子类的相似度很高。如图1(a)所示,以手术器械为例,手术器械的识别依赖于器械尖端和手柄的综合分析。有一些器械尖端相似,例如抓取器和双极手术钳尖端都包含一个椭圆形的圆环,而其他器械可能都有灰黑色的手柄。此外,手术动作的识别需要考虑一个视频片段内的上下文内容。如图1(b)所示,某一帧的手术动作可能出现在图像的边角,而在之前的画面中可能会有完整清晰的时序线索。
研究团队提出了一种多任务细粒度时空网络模型,包括手术三元组识别的多任务时空框架,多标签细粒度损失函数。在多任务框架中,提出的模型综合考虑了手术视频中的时间特征和空间特征,而之前的方法大多只使用了空间特征。多标签细粒度损失函数能够使得网络特征具有代表性,并且关注到图像中的不同区域,从而提高特征的区分性和多样性。
经腹腔镜胆囊切除术视频图像测试,研发的模型在器械,动作,器官识别任务上达到了82.1%,51.5%和45.5%的平均精度,超越了Triplet,Attention Triplet和Rendezvous等当前先进方法。与Rendezvous方法相比,模型精度分别提高了4.6%,4.0%,7.8%。在三元组整体识别任务上,研发的模型也提高了3.1%的平均精度,达到了35.8%。研发团队通过消融实验证明了不同模块的有效性。
该工作得到了国家自然科学基金,科技部重点研发计划、广东省自然科学基金、深圳市基础研究重点项目等资助。
图1. 手术动作三元组识别的两个特点
(a)手术动作三元组由手术器械、手术动作、手术目标三个任务组成,每个任务中的子类具有相似的外观特征。
(b)时间上下文在三元组识别中起到了重要的作用。
图2. 提出的多任务细粒度时空网络模型
图3. 与先进方法比较
附件下载: