影像组学研究基于支持向量机的MRI影像组学方法鉴别不同病理分型原发性肝癌的价值

Posted 中华放射学杂志

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了影像组学研究基于支持向量机的MRI影像组学方法鉴别不同病理分型原发性肝癌的价值相关的知识,希望对你有一定的参考价值。


点击标题下「蓝色微信名」可快速关注


文章来源:中华放射学杂志, 2018,52(5) : 333-337




摘要  

目的

探讨基于支持向量机(SVM)的MRI影像组学方法鉴别不同病理分型原发性肝癌的价值。


方法

回顾性分析2013年7月至2017年2月浙江大学附属第一医院经手术或穿刺病理证实为原发性肝癌,且术前行MRI平扫和增强扫描的294例(305个病灶)患者,其中肿块型胆管细胞癌96例(97个病灶)、肝细胞肝癌107例(107个病灶)、混合型肝癌91例(101个病灶)。患者均行肝脏MRI平扫和动态增强动脉期、门静脉期和平衡期扫描。按照训练数据与验证数据2∶1的比例,选取203个病灶作为训练集(肿块型胆管细胞癌65个、肝细胞肝癌71个、混合型肝癌67个),102个作为验证集(肿块型胆管细胞癌32个、肝细胞肝癌36个、混合型肝癌34个)。应用美国GE Analysis Kit(AK)软件,手动勾画MRI增强平衡期病灶,应用LASSO算法使用10折交叉验证的方法选择特征参数及降维,采用Spearman法计算特征间参数间的冗余性,采用SVM法构建预测模型,使用数据集在诊断模型上的准确性来评估模型效能。


结果

训练集共提取了280个定量影像特征参数,LASSO降维算法选择31个影像特征参数,去冗余处理后剩余影像特征21个。由于存在休斯效应,支持向量机选取前11个特征参数具有最佳泛化能力,其中直方图类参数4个,纹理类特征2个,灰度共生矩阵类4个,灰度步长矩阵类1个。应用SVM观测该11个影像特征数据,经回归分析,构建了原发性肝癌的预测模型。该模型在训练集的准确率为80.3%(163/203)。将验证集的102个数据带入该模型中,其准确率为75.5%(77/102)。验证集混合型肝癌准确率85.3%(29/34),3个病灶误诊为肿块型胆管细胞癌,2个误诊为肝细胞肝癌;肝细胞肝癌准确率77.8%(28/36),3个病灶误诊为混合型肝癌,5个误诊为肿块型胆管细胞癌;肿块型胆管细胞癌准确率62.5%(20/32),9个病灶误诊为混合型肝癌,3个误诊为肝细胞肝癌。混合型肝癌预测准确率最高。


结论

应用基于SVM的影像组学方法预测不同病理分型的原发性肝癌具有较高的准确性,其中对混合型肝癌的预测准确性最高。


原发性肝癌是常见的恶性肿瘤,分为肝内胆管细胞癌、肝细胞肝癌和混合型肝癌。肝内胆管细胞癌是第2常见的原发性肝癌,肿块型胆管细胞癌是肝内胆管细胞癌的主要亚型,占肝内胆管细胞癌的60%[1]。混合型肝癌同时包含肝细胞癌和胆管细胞癌成分,是最少见的原发性肝癌,占原发性肝癌的0.4%~14.2%[2],预后较肝细胞肝癌和胆管细胞癌差[3],术前依靠症状、血清肿瘤标志物以及影像检查诊断困难[4,5,6,7]。因此,正确诊断并鉴别3种不同病理分型的原发性肝癌对确定治疗方案和改善预后至关重要。笔者旨在探讨基于支持向量机(support vector machine,SVM)的MRI影像组学方法鉴别不同病理分型原发性肝癌的价值。


资料与方法

一、一般资料

回顾性分析2013年7月至2017年2月浙江大学附属第一医院符合以下标准的患者。纳入标准:(1)经手术或穿刺病理证实的原发性肝癌;(2)术前行MRI平扫和增强扫描;(3)所有扫描均在同一台MR仪上完成。排除标准:(1)未获得明确的原发性肝癌病理分型;(2)病灶太小(最大径≤5 mm),影响纹理特征提取;(3)图像质量不佳,不能用于分析。294例(305个病灶)患者纳入研究,其中肿块型胆管细胞癌96例(97个病灶),男63例、女33例,年龄36~76岁,中位年龄59岁;肝细胞肝癌107例(107个病灶),男87例、女20例,年龄31~79岁,中位年龄59岁;混合型肝癌91例(101个病灶),男62例、女29例,年龄21~77岁,中位年龄57岁。


二、MRI检查方法

采用美国GE Signa HDXT 3.0 T MR扫描仪,8通道相控阵表面线圈行肝脏MRI平扫和增强扫描。采用屏气T1WI脂肪抑制肝脏容积快速采集序列,TR 3.1 ms,TE 1.5 ms,反转时间5.0 ms,反转角15o,矩阵320×256,层厚5 mm,无间距扫描,FOV 40 cm×32 cm。增强扫描采用高压注射器以2.5 ml/s的流率经肘静脉团注对比剂Gd-DTPA 0.1 mmol/kg,再以相同流率注射生理盐水15 ml,延迟10、60、150 s行动脉期、门静脉期和平衡期扫描。


三、图像分析

1.影像组学分析:

应用美国GE Analysis Kit(AK)软件进行分析。该软件基于影像组学的方法,通过分析目标区域异质性以得到一系列影像特征,基本步骤包括:将显示肝脏病灶所有层面的MRI平衡期图像(DICOM格式)导入AK软件,由1名具有10年工作经验的放射科主治医师手动勾画、分割所有病灶的所有层面,并融合各层面病灶,然后计算出ROI内的定量影像特征参数。定量影像特征参数包括4类,分别为直方图类、纹理特征类、共生矩阵类和步长矩阵类。考虑到各型肝癌具有不同的强化方式,而所有病灶在平衡期显示最清晰,为增强判断自信心、避免误差,只选择平衡期进行肿瘤勾画。


2.SVM分析:

按照训练数据与验证数据2∶1的比例[8],选取203个病灶作为训练集(肿块型胆管细胞癌65个、肝细胞肝癌71个、混合型肝癌67个),102个作为验证集(肿块型胆管细胞癌32个、肝细胞肝癌36个、混合型肝癌34个)。采用SVM分类器,观测最终选出的影像特征数据,并寻找其中规律,以构建原发性肝癌的预测模型,并在验证集中应用该模型,评估预测准确率。由于存在休斯效应,支持向量机选取前11个特征参数时具有最佳泛化能力。


四、统计分析

与临床相关的特征筛选应用LASSO算法(least absolute shrinkage and selection operator),使用10折交叉验证的方法选择特征参数;采用Spearman法计算特征间参数间的冗余性,选取0.9为冗余阈值;使用SVM分类器对原发性肝癌进行诊断预测,由于特征维数复杂,常规线性SVM分类准确率较低,故使用基于核函数的SVM方法建立模型,评估时选取不同数量的特征参数进行模型训练,并在独立的验证集中评估预测的准确率。使用数据集在诊断模型上的准确性来评估模型的效能。


结果

采用AK软件提取了训练集203个病灶特征,通过量化分析,共提取了280个定量影像特征参数,LASSO降维算法选择31个影像特征参数(表1图1),去冗余处理后剩余影像特征21个(表1)。由于存在休斯效应,支持向量机选取前11个特征参数具有最佳泛化能力(表1),其中直方图类参数4个(能量uniformity、峰度kurtosis、标准差std deviation、方差variance),纹理类特征2个(全角相关性correlation_all direction、90度相关性correlation_angle90),共生矩阵类4个(短行程优势short run emphasis、长行程优势long run emphasis、逆差距inverse difference moment、惯性inertia),步长矩阵类1个(长行程低灰度优势long run low grey level emphasis)。


【影像组学研究】基于支持向量机的MRI影像组学方法鉴别不同病理分型原发性肝癌的价值

图1 LASSO降维图。使用LASSO方法对影像的特征参数进行降维,应用10折交叉验证方法确定最优化的λ为0.006,此处选取的log(λ)值为-5.040,该值对应的特征个数即31个。2条虚线对应2个λ对数函数值,左侧虚线是当多项式偏差最小时的λ对数函数值,右侧虚线是最佳的λ对数函数值。图片顶端的数值为特征数


应用SVM观测该11个影像特征数据,经回归分析,构建了原发性肝癌的预测模型。将验证集的102个(肿块型胆管细胞癌32个、肝细胞肝癌36个、混合型肝癌34个)数据带入该模型中,结果显示,训练集的准确率为80.3%(163/203),验证集的准确率为75.5%(77/102)。验证集混合型肝癌准确率85.3%(29/34),3个病灶误诊为肿块型胆管细胞癌,2个误诊为肝细胞肝癌;肿块型胆管细胞癌准确率62.5%(20/32),9个病灶误诊为混合型肝癌,3个误诊为肝细胞肝癌;肝细胞肝癌准确率77.8%(28/36),3个病灶误诊为混合型肝癌,5个误诊为肿块型胆管细胞癌。混合型肝癌预测准确率最高。


讨论

一、基于MRI图像的原发性肝癌的影像组学特征提取和支持向量机的鉴别价值

对MRI图像来说,图像的灰度对比度、均匀度、纹理的深浅程度和粗细度,是区分病变与非病变图像的重要特征。恶性肿瘤由于细胞通透性改变、异常血管生成以及黏液变、坏死等原因引起组织结构改变,从而导致肿瘤的不均匀[9]。因此,恶性结节在病理上表现为成分混杂、不均匀,这些变化有时肉眼不易察觉,但是通过纹理特征可以发现[10,11]。TA可客观测量灰度分布的不均匀性,不受主观分析和专业水平以及传统医学影像解释固有限制的影响,在肿瘤病灶提取、定性、疗效评估及预后预测方面具有较高的价值[9]


笔者应用AK软件共获取训练组203个原发性肝癌的280个影像定量参数。为了使基于SVM的分类器能够达到最大的分类准确率,必须寻求一组最优的影像特征组合。因此,笔者采用LASSO降维算法从280个定量参数中筛选出了31个特征参数,其中许多特征是相似的,有些特征甚至对正确分类起到负面的作用。特征数量越多,复杂度越高,分类速度也越低,导致分类准确率降低,因而普适性较差。为克服此问题,笔者利用Spearman法去冗余,从31个影像特征参数中得到了21个特征参数,由于存在休斯效应,支持向量机选取前11个特征参数时具有最佳泛化能力。本研究结果显示,训练集的准确率为80.3%(163/203),验证集的准确率为75.5%(77/102),其中验证集混合型肝癌准确率85.3%(29/34),肿块型胆管细胞癌准确率62.5%(20/32),肝细胞肝癌准确率77.8%(28/36),混合型肝癌预测准确率最高,说明影像组学模型对混合型肝癌的诊断贡献率最大。本研究中,预测错误率最高发生在肿块型胆管细胞癌组,32个病灶中,9个误诊为混合型肝癌,3个误诊为肝细胞肝癌,预测错误主要发生于肿块型胆管细胞癌与混合细胞肝癌之间,提示这两型肝癌较难鉴别。本研究结果和Wilson和Devaraj[12]的结果一致,Wilson和Devaraj[12]鉴别127个肺部良恶性结节时,同样应用了机器学习方法,并提取了583个CT影像纹理特征,最终的分类准确率达到82.7%。


二、影像组学特征参数的意义

通过影像组学方法提取的大量肿瘤图像特征,具有客观性,且成本较低,有助于预测临床结果[13]。本研究中的11个原发性肝癌影像特征参数中,包含了直方图类、纹理特征类、共生矩阵类及步长矩阵类等多类参数。直方图是图像灰度级的函数[14],它以定量的方式描述、比较肿瘤生物指标的分布。最终选取的11个特征参数中,包含了方差variance、标准差std deviation、峰度kurtosis及能量uniformity4个指标,说明此4个直方图参数在鉴别三类原发性肝癌中具有重要贡献。共生矩阵特征主要参数包括相关性correlation、长行程优势long run emphasis、短行程优势short run emphasis、逆差距inverse difference moment、惯性inertia、突出类聚cluster prominence和熵entropy等[15]。相关性correlation参数衡量灰度共生矩阵元素在行或列方向或角度上的相似程度。逆差距inverse difference moment反映图像纹理的同质性,度量图像纹理局部变化的多少。惯性inertia是将图像灰度的空间分布拉开,更能分辨出灰度空间分布的复杂程度。当癌灶具有完全的同质性时,熵entropy值最小,当癌灶异质性大时,熵entropy值变大[16]。基于步长矩阵的参数描述了图像的粗糙度或平滑度,短行程优势short run emphasis在越粗糙的图像上值越大,长行程优势long run emphasis在越光滑的图像上值越大[17]。本研究中的11个特征参数,在不同程度上反映了3种类型的原发性肝癌在图像灰度值分布、纹理特征及空间异质性方面的差异。混合型肝癌的预测准确性最高,可能与其在11个筛选的特征参数中所占比例最高有关。由于本组病例的预测错误率最高的发生于肿块型胆管细胞癌组,说明肿块型胆管细胞癌与混合细胞肝癌在上述的影像特征参数的差异上不够明显。


三、本研究的局限性

由于本研究是回顾性设计,尚存在如下缺陷。第一,在纹理分析前,没有纠正潜在的磁场偏倚变化,而磁场不均匀性产生的模糊图像可能会干扰SVM分析的准确性;第二,部分肝癌病灶与正常组织边界模糊,在图像分割时容易导致边界泄漏问题,此外,由于癌灶内灰度的异质性分布,统计特征不一致,单一建模常常不能涵盖病灶的全部特征;第三,笔者旨在选择那些对不同分型肝癌最有鉴别价值的影像特征,而通过LASSO降维算法选取的31个纹理特征参数,可能会拒绝一些潜在有鉴别价值的特征参数,而且由于研究样本量尚少,分类器的预测准确性可能存在一定的不稳定性。今后尚需更大样本的研究,以进一步改善分类器预测不同分型原发性肝癌的准确性。


综上所述,笔者通过基于SVM的影像组学方法,筛选出11个肝癌影像特征参数。通过训练集的分析,构建了预测模型,结果经验证集验证,本模型预测肿块型胆管细胞癌、肝细胞肝癌及混合型肝癌的准确率达到75.5%(77/102)。


参考文献(略)





以上是关于影像组学研究基于支持向量机的MRI影像组学方法鉴别不同病理分型原发性肝癌的价值的主要内容,如果未能解决你的问题,请参考以下文章

影像组学与人工智能医学影像

人工智能+医学影像

人工智能医学影像与疾病诊断

影像组学标签(radiomic signature)影像组学评分运算公式(rad-score)

python使用lassocv生成影像组学(radiomic)模型的系数表

python使用TSNE为影像组学(radiomics)数据进行降维可视化分析