论著|基于深度学习人工智能在结肠镜检查中应用研究
Posted 中国实用外科杂志
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论著|基于深度学习人工智能在结肠镜检查中应用研究相关的知识,希望对你有一定的参考价值。
钟芸诗教授
【引用本文】阿依木克地斯·亚力孔,庄惠军,蔡世伦,等. 基于深度学习人工智能在结肠镜检查中应用研究[J]. 中国实用外科杂志,2020,40(3):353-357.
基于深度学习人工智能在结肠镜检查中应用研究
阿依木克地斯·亚力孔1,庄惠军2,蔡世伦1,牛雪静3,谭伟敏3,颜 波3,姚礼庆1,周平红1,钟芸诗1
中国实用外科杂志,2020,40(3):353-357
目的 构建人工智能辅助的结肠镜质量评估算法及肠息肉形态分类算法,客观评估肠镜检查质量、息肉形态,实现结肠镜检查的规范化和统一化。方法 收集复旦大学附属中山医院2018年1月至8月,共18 962张肠镜图片。其中7140张用于肠镜质量评估算法建立,11 822张用于肠息肉形态分类算法建立。把肠镜图像作为卷积神经网络(CNN)的输入,端到端训练卷积神经网络,实现肠镜图像的分类任务,从而建立算法。其中包括3个模型:(1)肠道准备质量评分(四分类)。(2)回盲瓣的识别(二分类)。(3)无蒂和有蒂息肉的分类(二分类)。结果 肠镜质量评估模型对回盲瓣识别的准确率为95.27%,受试者工作特征(ROC)曲线下的面积(AUC)为0.9769,对基于波士顿评分标准四分类的图像的识别总精度为76.96%。肠息肉形态分类模型的AUC值为0.8695。结论 该深度学习模型用于肠镜检查质量的评估和肠息肉形态学的分类,具有良好的特异度、敏感度和AUC值,可辅助医师对肠镜检查质量进行评价,并对肠息肉进行分类,实现规范化和统一化。
基金项目:国家重点研发计划资助(No.2018YFC1315000/2018YFC1315005)国家自然科学基金(No.81702305,81861168036);上海市消化内镜诊疗工程技术研究中心支持项目(No.16DZ2280900);上海市青年科技英才杨帆计划(No.17YF1402000)上海市教委曙光计划(No.18SG08)
作者单位:1 复旦大学附属中山医院内镜中心,上海 200032;2 厦门大学附属第一医院内镜中心(共同第一作者),福建厦门 361000;3复旦大学计算机科学技术学院,上海 201203
注:阿依木克地斯·亚力孔与庄惠军对本文有同等贡献,均为第一作者
1 资料与方法
1.1 一般资料 收集复旦大学附属中山医院2018年1月至2018年8月共18 962张肠镜图片。其中,用于肠镜质量评估算法建立的图片共7140张,包括394张回盲瓣图片,594张非回盲瓣图片,剩余图片按照波士顿评分标准进行分类,其中评分0分1025张,1分1716张,2分1435张,3分1976张。用于肠息肉形态分类算法建立的图片共11 822张,其中10 646张为无蒂息肉,1176张为有蒂息肉图片。所有图像均在白光、非放大模式下拍摄,所使用的肠镜为Olympus公司的260和290系列。
1.2 图片分类及预处理 首先通过软件对样本进行边界裁剪处理,然后经过2名具副高级职称的内镜医师讨论后进行肠镜图片分类。分类时通过对图片中的肠道准备情况按照波士顿肠道准备量表(boston bowel preparation scale,BBPS)评分标准进行分类(图1、图2),根据图片中息肉是否有蒂分为有蒂息肉和无蒂息肉(图3)。此外,我们对样本进行了增强处理,从而增加样本的多样性,也使得训练得到的人工智能系统具有高泛化能力。将70%图片作为训练集,30%图片作为测试集。
1.3 基于深度学习算法建立质量评估及形态学分类模型 肠镜质量评估模型及肠息肉形态分类模型由复旦大学计算机系进行建立,使用8层的深度卷积神经网络(convolutional neural network,CNN),结构如图4~6所示,主要由卷积层、非线性映射层(ReLU层)、池化层以及Softmax层组成。卷积层通过卷积核与输入进行卷积运算,对输入进行特征提取;ReLU层将卷积层的输出进行非线性映射,提高深度网络的非线性拟合能力;池化层使用某一位置相邻输出的总体统计特征来代替网络在该位置的输出,具有一定的平移不变性;最后,Softmax层将最后一层的特征向量映射为预测的概率值,即输入图片属于回盲瓣或者非回盲瓣,属于波士顿肠道准备量表评分标准分别为0分、1分、2分、3分的概率,属于有蒂或无蒂息肉的概率。
由ImageNet数据集预训练的1000类物体分类模型初始化网络的参数,并修改最后的全连接层节点为2(回盲瓣、非回盲瓣识别模型或有蒂、无蒂息肉识别模型)或4(肠道质量评分模型),通过反向传播算法(back propagation,BP)使用前期收集的大量人工分类的肠镜数据,进行有监督地学习网络结构中的参数。其基本思想是:输入样本(待检测的内镜图片),在深度神经网络中经过前向传播得到一个期望输出,根据损失函数,计算网络输出相对于样本标签的损失,进而根据链式求导法则,计算损失相对于当前网络模型中每一个参数的梯度,将误差逐层反向传播至输入层,每层的神经元会根据该误差对网络结构中的参数进行更新。对卷积神经网络而言,待学习的参数包括卷积核参数、层间的连接参数以及各层的偏置。训练好的网络模型能够预测新输入样本对应的类别标签,从而实现评级任务。
回盲瓣分类模型、肠道质量评分模型、息肉形态学分类模型分别单独训练。在端到端训练单个模型时,图像被调整大小到300×300,随机裁剪到224×224,并进行增强,作为卷积神经网络的输入。所使用的损失函数为焦点损失(focal loss)[7],可以有效改善训练过程中样本不均衡的问题。使用批量随机梯度下降的方法优化模型,批大小设为32。初始学习率为0.001,每240个周期衰减一次,衰减率为0.9。为了防止过拟合,每次迭代时在全连接层随机杀死50%的节点。多次迭代,直至损失函数收敛。
对于新的待测试图像,调整其大小为224×224,经过一次前向传播,获得待测试图像被分为各类(回盲瓣、非回盲瓣或0、1、2、3分或有蒂、无蒂息肉)的概率。待测图像属于预测概率最大的类。
1.4 模型的验证 利用测试集来测试已训练的模型,计算不同截断点时系统的灵敏度及特异度,绘制ROC曲线,以及不同分类下肠镜图片的识别精度,以此作为评价模型的性能指标。
2 结果
2.1 结肠镜质量评估模型结果 通过对测试集进行分析,系统对回盲瓣的识别准确率为95.27%,选取不同截断点绘制受试者工作特征(receiver operating characteristic,ROC)曲线(图7),曲线下的面积(area under curve,AUC)值达0.9769。对于按波士顿评分进行四分类的肠镜图片总的精度为76.96%,对于评分为0分、1分、2 分、3分的识别精度分别为74.67%、61.29%、79.38%、93.56%。
根据上述结果,笔者团队初步设计了该质量评估系统。该系统功能包括回盲部到达率,肠道准备评分,退镜时间等。系统中的退镜时间根据本次肠镜采集的最后一张图与回盲瓣图片的时间差获得(见图8)。
2.2 肠息肉评估模型结果 有蒂、无蒂息肉外观上有一定的相似性。本研究的模型在验证集353张正样本(有蒂息肉)、3195张负样本(无蒂息肉)中 AUC值达到0.8695;当敏感度为84.98%时,特异度为68.70%;当敏感度为73.09%时,特异度为84.54%。详细结果如图9所示。
3 讨论
高质量的肠镜检查在结直肠癌的早诊早治中具有重要意义。中华医学会消化内镜分会、美国消化内镜学会发布的关于结肠镜操作质量控制相关指南中均提及了高质量的肠镜标准与以下指标有关:退镜时间、腺瘤检出率、盲肠插镜率、穿孔率、肠道准备充分、息肉切除术后出血率[8-9]。中国指南指出:良好的肠道准备比例应>85%,盲肠插镜率应>95%,退镜时间应≥6 min[8]。美国指南还要求肠镜检查中必须拍摄包含盲肠袋褶皱和阑尾孔的画面以及包含盲肠和回盲瓣的画面作为到达盲肠的依据[9]。目前,我国仅有文献报道中肠道准备不充分比例高达29.7%[10],还达不到指南中要求的标准。然而,基于计算机软件的人工智能系统使结肠镜检查视频的实时质量分析成为可能,给肠镜检查质量提升带来了希望。早在2010年的一项研究提出的阑尾口视频检测算法,通过利用从截面边缘轮廓中提取的新的局部特征来检测阑尾口的外观,然后利用近暂停检测来回忆缺失的边缘较弱的阑尾孔图像,并剔除一些错误的分类,从而识别阑尾口并将其作为评估结肠镜检查完整率的指标,研究结果在23个视频测试集中平均灵敏度和特异度分别为96.86%和90.47%[11]。Stanek等[12]开发了另一个用于结肠镜检查视频的实时图像分析软件反馈系统,此系统通过对模糊帧检测(从非信息帧中提取信息)、实时的粪便检测以及通过计算内窥镜的退出螺旋运动来评估检查的范围,从而评估肠镜检查的质量,研究结果显示该系统使结肠镜检查的质量得到了提高。最近,Su等[13]开发了一种基于深度学习的肠镜质量控制系统(AQCS),此系统可实时监控退镜速度及稳定性、肠道准备情况,并在退镜过快及肠道准备差(BBPS<2)时给予提示,从而达到质控的目的。他们在前瞻性的随机对照研究中比较了在AQCS辅助下医生的腺瘤检出率,结果显示,AQCS能有效提高肠镜检查质量,显著提高息肉和腺瘤的检出率。以上研究揭开了人工智能在肠镜检查质量控制领域应用的序幕,并展现了其广阔的应用前景。我们的研究利用基于深度神经网络的人工智能技术通过对回盲瓣的识别以及肠道准备质量的评分,对肠镜图片分析得出退镜时间、肠道准备评分、盲肠插镜率等质量控制指标,能为单位及个人的结肠镜检查质量的评估提供依据,筛选出结肠镜检查质量较低的医生或者医院再培训和评估,监督肠镜检查的有效性、安全性和准确性。另外,基于人工智能的肠息肉形态分类系统可以综合集成医学专家的大量权威知识和经验,辅助缺乏经验的医生科学、规范的实现肠镜下息肉的分类,实现肠息肉评估的统一化和规范化。减少目前我国由于经济和医疗资源配置等问题,各地内镜诊疗工作开展水平不一,尤其是欠发达地区的医师缺乏经验等带来的肠镜下息肉形态分类的主观性差异。 本研究的不足之处在于:(1)目前研究仅为单中心验证,接下来需要进一步的进行多中心的临床验证支持。(2)质量评估模型目前对回盲瓣及清洁肠道(3分)的识别精度均高于90%,但对于基于波士顿评分的0分,1分,2分的识别精度尚有待提高,可以通过扩充样本图片数量进一步训练神经网络,进而提高各评分类型的识别精度。(3)本模型对息肉的形态学分类仅停留于有蒂和无蒂两类,在接下来的研究中,我们将进一步细致到息肉的巴黎分型,使得人工智能肠息肉分类系统做到更加全面。(4)目前,本系统的验证仅在肠镜图片数据集中得到验证,在接下来的工作中将争取进一步优化算法,在实时的肠镜操作中验证本系统。
参考文献
(在框内滑动手指即可浏览)
[1] 段明月, 叶玉琴, 张乐, 等. 人工智能制定乳腺癌术后治疗方案与相关指南一致性研究[J].中国实用外科杂志, 2019,39(9):964-967.
[2] Misawa M, Kudo SE, Mori Y, et al. Artificial intelligence-assisted polyp detection for colonoscopy: initial experience [J]. Gastroenterology, 2018, 154(8): 2027-2029.
[3] Wang P, Berzin TM, Brown JRG, et al. Real-time automatic detection system increases colonoscopic polyp and adenoma detection rates: a prospective randomised controlled study [J]. Gut, 2019, 68(10): 1813-1819.
[4] Chen PJ, Lin MC, Lai MJ, et al. Accurate classification of diminutive colorectal polyps using computer-aided analysis [J]. Gastroenterology, 2018, 154(3): 568-575.
[5] Filip D,Gao XX, Angulo-Rodríguez L, et al.Colometer: A real-time quality feedback system for screening colonoscopy [J]. World J Gastroenterol, 2012, 18(32): 4270-4277
[6] Baxter NN, Sutradhar R, Forbes SS, et al. Analysis of Administrative Data Finds Endoscopist Quality Measures Associated With Postcolonoscopy Colorectal Cancer [J]. Gastroenterology, 2011, 140(1): 65-72.
[7] Lin TY, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection [J]. Ieee I Conf Comp Vis, 2017, 2999-3007.
[8] 柏愚, 杨帆, 马丹, 等. 中国早期结直肠癌筛查及内镜诊治指南(2014年,北京)[J] . 胃肠病学, 2015,20(6):345-365.
[9] Rex DK, Schoenfeld PS, Cohen J, et al. Quality indicators for colonoscopy [J]. Gastrointest Endosc, 2015, 81(1): 31-53.
[10] Liu XD, Luo H, Zhang L, et al. Telephone-based re-education on the day before colonoscopy improves the quality of bowel preparation and the polyp detection rate: a prospective, colonoscopist-blinded, randomised, controlled study [J]. Gut, 2014, 63(1): 125-130.
[11] Yi W, Tavanapong W, Wong JS, et al. Detection of quality visualization of appendiceal orifices using local edge cross-section profile features and near pause detection [J]. IEEE Tran Bio Eng , 2010, 57(3): 685-695.
[12] Stanek S R, Tavanapong W, Wong J, et al. SAPPHIRE: A toolkit for building efficient stream programs for medical video analysis [J]. Comput Meth Prog Bio, 2013, 112(3): 407-421.
[13] Su JR,Li Z,Shao XJ,et al.Impact of a real-time automatic quality control system on colorectal polyp and adenoma detection: a prospective randomized controlled study (with videos)[J].Gastrointest Endosc,2020,91(2):415-424.
(2019-10-15收稿 2019-12-30修回)
版权声明
以上是关于论著|基于深度学习人工智能在结肠镜检查中应用研究的主要内容,如果未能解决你的问题,请参考以下文章