论文阅读 Aggregating Long-Term Context for Learning Laparoscopic and Robot-Assisted Surgical Workflows

Posted WXiujie123456

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文阅读 Aggregating Long-Term Context for Learning Laparoscopic and Robot-Assisted Surgical Workflows相关的知识,希望对你有一定的参考价值。

Aggregating Long-Term Context for Learning Laparoscopic and Robot-Assisted Surgical Workflows

2021 IEEE International Conference on Robotics and Automation (ICRA 2021)

task

面向更长时间的外科工作流识别

阅读记录


分析手术流程对于手术辅助机器人理解手术至关重要。通过了解完整的手术流程,机器人能够在手术中协助外科医生,例如当外科医生进入特定的按键或高风险阶段时,机器人会发出警告。

近年来,深度学习技术被广泛应用于外科工作流程的识别。许多现有的时间神经网络模型在处理数据中的长期依赖关系方面能力有限,相反,它们依赖于底层的逐帧可视化模型的强大性能。

我们提出了一种新的时间网络结构,它利用特定于任务的网络表示来收集由充分统计模型(SSM)传播的长期充分统计信息。我们在LSTM骨干中实现了手术阶段识别的任务,并探索了几种传播统计的选择。

我们在两个腹腔镜胆囊切除术数据集上展示了优于现有和新的最先进的分割技术的卓越结果:公开可用的Cholec80数据集和MGH100数据集,这是一个具有更具挑战性和临床意义的段标签的新数据集
前人的不足

  • 不足1:现有的模型仍然缺乏完整和自动的外科解释,因为从视频中解读手术一般是基于“手术是一个固有的时间过程,具有部分可观察状态和长期性的特点”。比较而言,如计算机断层扫描(CT)或磁共振成像(MRI)这种,从关键图像就能判断,短期互动就能满足。
  • 不足2:要理解外科手术的工作流程,需要对从几秒钟到几小时不等的时间尺度上的事件进行推理,这超出了现有模型的能力。例如,在内镜检查中,如结肠镜检查,在插入镜的过程中早期发现息肉,会影响在撤走时是否进行息肉切除术。 在腹腔镜胆囊切除术中,“卡洛三角剥离术”涉及从肝床上切除胆囊的下部(即清除胆囊板)。这个阶段在视觉上与随后的“从肝脏床上移除胆囊”并不明显,需要知道关键阶段(发生在几分钟后)尚未发生,从而准确推断当前的手术阶段。在这种情况下,与手术总时间相比,LSTM提取的信息仍然是局部的,不能提高这些病例的分类性能。

手术阶段识别尝试对给定视频帧It(t= 0…T)的正确手术阶段标签进行分类,,我们用yt∈1…N表示框架It的ground真值标签N是不同手术阶段的数量。我们通过CNN视觉模型(基于ResNet模块[41])处理单个帧,将视觉内容编码为单个矢量vt,然后将其反馈给LSTM,形成标准的CNN-LSTM结构。

在时间过程分析中,当推理主要依赖于最近的信息时,循环神经网络如lstm表现良好。然而,当需要长期的时间信息进行推理时,性能会受到影响。为了解决长期信息的缺乏,人们提出了扩张卷积[42],但它们未能利用手术解释中涉及的几个现象:

  1. 阶段转换的正确分类依赖于低维信息的传播,这些信息与被检测的实际阶段相一致
  2. 来自遥远过去的短事件可以显著影响对当前观测结果的解释。(例如,在“解剖卡洛三角”和“从肝床切除胆囊”两阶段中,清除胆囊板在视觉上是相同的任务。根据预先知道囊性结构已经被剪断和分离,可以确定正确的阶段)。
  3. 一些暂时的证据收集发生在很长一段时间内(考虑关于每个阶段长度的先验)。

由于估计量的维数以及捕捉阶段和感知限制的不确定性的需要,很难提取出过去的完美充分的统计数据,上述现象使得定义一组近似的足够统计量成为可能,这些统计量可以从基于LSTM隐藏状态lt的某些转换的时间聚合的数据中计算出来。这使得网络更容易进行短期的时间推理(如变化检测和视觉处理),以及中期和长期推理(如计算每个阶段的过去帧)。总体方法在算法1中给出,如图1所示。

架构使用 上一个LSTM的隐藏层,并将其通过一个转换(阶段识别模块),得到一个矢量mt时间矢量信号。然后对转换后的信号mt进行汇总统计,得到一个充分统计特征流 S=s1. .st。通过串联vt,然后将它们作为增强特征ct反馈到当前时间阶段LSTM推断。串联后,以ct为输入,使用LSTM输出每个阶段的似然度。请注意,无论是训练还是测试,历史内存Mt都用0初始化。
上图所示。SSM网络架构。来自网络阶段估计头的信息被处理成一个多通道的时间信号生成的统计信息与可视化嵌入连接在一起,并传递给LSTM。






尽管只利用了阶段标签,没有纳入其他特征(工具,运动学),如endonet[7]或mtrcnet - cl[12],我们提出的SSM-LSTM模型在不同模型中具有90.0%的最佳正确率,在精度、召回率和F1评分方面表现相似。我们提出的方法的结果之后是一个HMM来进一步平滑[7]。结合因果特征和因果特征的结果显示为演示离线应用程序,以衡量因果信息的效果。

MGH100数据集的结果见表III。LSTM是类似于[24]的CNN-LSTM结构的基线。使用单个SSM特征(例如Gabor, CSL)的消融研究也被展示出来。模型的准确性和F1得分得益于SSM的多个特征。结合不同的SSM特征,表示为“SSM”,所提出的模型在四个指标中都取得了最好的性能,在LSTM的基础上有了显著的改进。

我们还对不同相位长度的模型的性能进行了评估(表IV)。我们注意到LSTM在短相位(<30s)内的性能有显著下降。然而,我们的SSM特征在这种情况下有助于改善。由于SSM提供了关于工作流结构的额外信息,我们的方法能够在这个更具挑战性的数据集的短期内显著提高性能。我们还在图4中展示了不同长度相位的精度曲线,从图中可以看出,在较短相位时,SSM-LSTM(紫色)明显优于(LSTM)。

我们还分析了SSM-LSTM在各个阶段的性能,如图5所示。在MGH100数据集上,该算法在“Release GB腹膜”、“Dissection of Calot’s Triangle”等长阶段上表现良好,准确率达到90%以上。短阶段的性能更差,因为由于缺乏数据可变性,一些短阶段可能更难推断(例如,阶段检查点2的准确率为37%)。然而,在SSM中,短阶段性能超过了LSTM,如表4所示。

说明

以上内容均为作者本人平时阅读并且汇报使用,内容整理全凭个人理解,如有侵权,请联系我;内容如有错误,欢迎留言交流。转载请注明出处,并附有原文链接,谢谢!

此外,我还喜欢用ipad对论文写写画画(个人英文阅读的水平有限),做一些断句、重点勾画等,有兴趣大家可以按需下载:链接

更多论文分享,请参考: 深度学习相关阅读论文汇总(持续更新)

以上是关于论文阅读 Aggregating Long-Term Context for Learning Laparoscopic and Robot-Assisted Surgical Workflows的主要内容,如果未能解决你的问题,请参考以下文章

AGGGEN: Ordering and Aggregating while Generating阅读笔记

论文阅读 Aggregating Long-Term Context for Learning Laparoscopic and Robot-Assisted Surgical Workflows

论文阅读 Aggregating Long-Term Context for Learning Laparoscopic and Robot-Assisted Surgical Workflows

论文阅读 Aggregating Long-Term Context for Learning Laparoscopic and Robot-Assisted Surgical Workflows

python core-spark-aggregating-data.py

python core-spark-aggregating-by-key.py