今天跟大家分享的是十一月份发表在BMC Genomics杂志上的一篇文章,主要是基于lncRNA的支持向量机模型对胃癌患者的MSI表型进行预测。支持向量机是传统机器学习中一个非常重要的分类算法,表现优越,应用广泛,效能强大。即使是在深度学习(2012)被广泛应用的今天,也没有完全落实。A gastric cancer LncRNAs model for MSI and survival prediction based on support vector machine基于lncRNA的支持向量机模型对胃癌患者的MSI表型和预后进行评估 lncRNA通过表观遗传调控、转录调控等方面参与细胞增殖、分化等多种生物学过程,在诱导肿瘤发生过程中起着至关重要的作用。微卫星不稳定性(MSI)被认为是PD-1/PD-L1单克隆抗体治疗的生物标志物。本研究目的是基于TCGA中胃腺癌lncRNA表达数据,通过支持向量机(SVM)建立lncRNAs的MSI分类模型,最终识别出16个可以用于MSI状态预测的lncRNAs标志。lncRNAs与MSI状态的相关性提示了lncRNAs在胃癌免疫治疗中的潜在作用。本研究流程图如下所示。图1.流程图 一.数据准备及预处理从公开的TANRIC数据库中下载胃腺癌的lncRNAs数据,其中包含285个肿瘤样本和33个正常样本的12727个lncRNAs信息。临床资料来源于TCGA数据库,MSI信息来源于R包TCGAbiolinks,只保留有MSI-PCR信息的134例患者。这些患者以7:3的比例被随机分配到训练数据和验证数据中,训练数据包括94例样本,验证数据包括40例样本。二. lncRNAs预测MSI模型的建立1. 识别支持向量机(SVM)模型参数的最佳组合基于主成分分析(PCA)算法识别能反映整体数据95%信息的特征,然后通过SVM算法进行数据分类以及函数逼近(matlab包LIBSVM),在10倍交叉验证的基础上确定惩罚系数C(C=2)以及参数γ(γ=0.0884)。 2.基于RFS算法进行特征选择通过Relief算法识别每个lncRNAs在特征选择过程中的权重,权重排序如图2所示。从特征权重最高的lncRNAs开始,依次向模型中加入特征权重第二高的lncRNAs。研究者发现,当加入到第16个lncRNAs时,特征子集的AUC值已经达到一个较高的水平。即使再添加新特征,AUC值也变化不大。因此,考虑到模型的复杂性,选择这16个lncRNAs作为最优特征,16个lncRNAs信息如表1所示。