胃癌预后-lncRNA的支持向量机模型

Posted 生信人

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了胃癌预后-lncRNA的支持向量机模型相关的知识,希望对你有一定的参考价值。

今天跟大家分享的是十一月份发表在BMC Genomics杂志上的一篇文章,主要是基于lncRNA的支持向量机模型对胃癌患者的MSI表型进行预测。支持向量机是传统机器学习中一个非常重要的分类算法,表现优越,应用广泛,效能强大。即使是在深度学习(2012)被广泛应用的今天,也没有完全落实。 
 
A gastric cancer LncRNAs model for MSI and survival prediction based on support vector machine
基于lncRNA的支持向量机模型对胃癌患者的MSI表型和预后进行评估

lncRNA通过表观遗传调控、转录调控等方面参与细胞增殖、分化等多种生物学过程,在诱导肿瘤发生过程中起着至关重要的作用。微卫星不稳定性(MSI)被认为是PD-1/PD-L1单克隆抗体治疗的生物标志物。本研究目的是基于TCGA中胃腺癌lncRNA表达数据,通过支持向量机(SVM)建立lncRNAsMSI分类模型,最终识别出16个可以用于MSI状态预测的lncRNAs标志。lncRNAs与MSI状态的相关性提示了lncRNAs在胃癌免疫治疗中的潜在作用。本研究流程图如下所示。

图1.流程图
 
.数据准备及预处理
从公开的TANRIC数据库中下载胃腺癌的lncRNAs数据,其中包含285个肿瘤样本和33个正常样本12727个lncRNAs信息。临床资料来源于TCGA数据库,MSI信息来源于 R包TCGAbiolinks, 只保留有MSI-PCR信息的134例患者。这些患者以7:3的比例被随机分配到训练数据和验证数据中,训练数据包括94例样本,验证数据包括40例样本。
 
. lncRNAs预测MSI模型的建立
1. 识别支持向量机(SVM)模型参数的最佳组合
基于主成分分析(PCA)算法识别能反映整体数据95%信息的特征,然后通过SVM算法进行数据分类以及函数逼近(matlab包LIBSVM),在10倍交叉验证的基础上确定惩罚系数CC=2)以及参数γ(γ=0.0884)。

2.基于RFS算法进行特征选择
通过Relief算法识别每个lncRNAs在特征选择过程中的权重,权重排序如图2所示。从特征权重最高的lncRNAs开始,依次向模型中加入特征权重第二高的lncRNAs。研究者发现,当加入到第16个lncRNAs时,特征子集的AUC值已经达到一个较高的水平。即使再添加新特征,AUC值也变化不大。因此,考虑到模型的复杂性,选择这16个lncRNAs作为最优特征,16个lncRNAs信息如1所示。

胃癌预后-lncRNA的支持向量机模型 2.基于向前选择算法(RFS)进行特征选择的权重排序

 
lncrna在癌症的发病机制中起着至关重要的作用,其功能异常与癌症的发生发展密切相关,通过对这16个lncRNA与体细胞突变之间的相关分析,研究者们发现这16个lncRNA与体细胞突变之间存在很强的相关性,进一步证明,本研究的识别出的这16个lncRNAs在癌症作用机制上存在重要意义。

胃癌预后-lncRNA的支持向量机模型

  1. 与训练数据中 MSI显著相关的lncRNAs
 
3.lncRNAs预测MSI模型的性能评估
lncRNAs模型在训练数据中的AUC0.976,在验证队列中的AUC为0.950 (图3)。分类准确性还是不错的。另外,样本2、3、5年的AUC分别为0.620、0.800和0.779图4)。

胃癌预后-lncRNA的支持向量机模型 

图3.基于lncRNAs模型绘制训练数据和验证数据的ROC曲线
 

胃癌预后-lncRNA的支持向量机模型 

图4. 样本第2、3、5年的ROC曲线
 
接着,根据lncRNAs模型打分进行样本分类(阈值:DFS, 0.089;OS,0.183),将样本分成高低分数两组。如图5所示,在临床I-III期样本中,与低得分患者相比,分数较高的患者有更长的无病生存时间 (P = 0.011)。然而,I-IV期得分较低的患者有更长的总体生存时间 (P = 0.028)(图5)。

 

5.基于lncRNAs模型打分进行生存分析(I-III期的样本DFS, I-IV期样本的OS)
 
.结论
本研究主要关注lncRNAsMSI之间的相关性,提出了16个具有MSI预测价值的特征lncRNAs。此外,本lncRNAs模型有可能成为预测胃腺癌预后的潜在标志物。
 
今天的文献解读到这里就结束了,不知道小伙伴们掌握的怎么样呢。支持向量机是一种简单又强大的分类算法,同学们可以利用空闲的时间学习下,技多不压身,总会有用到那一天的嘛!最近天气寒冷, 流感也逐渐进入高发期,大家一定要记得做好预防工作,不要被小小的流感阻挡努力科研的步伐哦。

欢迎关注生信人

 |  |  ||  |     |  value

  | |  |   |  |

  |  |  |   |

 | |  | |  |   | 




以上是关于胃癌预后-lncRNA的支持向量机模型的主要内容,如果未能解决你的问题,请参考以下文章

支持向量机回归机的推导过程

支持向量机

支持向量机(SVM):超平面及最大间隔化支持向量机的数学模型软间隔与硬间隔线性可分支持向量机线性支持向量机非线性支持向量机核函数核函数选择SMO算法SVM vs LR优缺点

支持向量机--软硬间隔与支持向量机

支持向量机算法

支持向量机