利用机器学习预测promiscuity cliffs
Posted DrugAI
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了利用机器学习预测promiscuity cliffs相关的知识,希望对你有一定的参考价值。
今天介绍的文章是德国波恩大学波恩-亚琛国际信息技术中心(B-IT)的Bajorath实验室2020年9月在Molecular informatics上发表的“Prediction of Promiscuity Cliffs Using Machine Learning”。
——背景——
Promiscuity Cliffs (PC)指的是结构非常相似的分子但是对应的靶标数量差异很大的现象。能够与多个靶标作用的分子是多元药理学的药物发现的基础,同样也是混杂药物功效的主要决定因素。但是,多靶标药物也有可能造成药物副作用,而且对于多靶标分子的研究无论是实验还是计算与单靶标相比更具挑战性。本文利用多种机器学习模型对promiscuity cliffs进行预测,同时分析了影响预测结果的特征。
——方法——
数据主要来自于两个数据库,分别是来自于ChEMBL激酶抑制剂的数据库和PubChem的数据。作者首先对所有的分子进行匹配分子对(Matched Molecular Pair, MMP)分析,然后分别根据△PD>=10,[9-8],[7-6],[5-4],[3-2]进行数据划分,具体见表1。对于PubChem数据库,作者挑选900对MMP作为样本,然后在非PC的MMP网络中挑选900对non-PC MMP作为负样本。总共生成了5个1800对MMP含3600分子的数据集,被平分成训练集和测试集。其中每对MMP都是唯一的。此外,为了对比测试,还构造了一个含900个混杂分子和900个非混杂分子的单分子数据集用来做单分子的混杂性(promiscuity)预测。类似地,对于不同的激酶抑制剂的数据集,作者挑选了500对PC的 MMP(△PD>=10)和500对non-PC 的MMP作为数据集。作者使用了20%的训练集作为验证集用来进行模型的超参数优化。
表1 根据不同△PD划分标准划分的数据集分布
作者使用的分子表征为MMPFP。MMPFP主要是由其中的两个分子的ECFP4构成。两个分子所共有的部分称为核心分子指纹(CFP),其中各自所特有的部分为取代基1指纹(S1FP)和取代基2指纹(S2FP),将三者拼接在一起即可得到,具体例子见图1。
图1 分子对的表示
作者分别构建了KNN、SVM、RF、DNN模型,分别对分子对和单分子数据集进行预测,并使用了ACC、MCC、F1、ROC-AUC共4种评价指标进行评估。
——结果——
首先是机器学习模型对于△PD>=10的分子对数据集的结果(表2),可以在看出所有的模型对于PubChem的数据准确率都高于70%,而SVM和RF甚至接近80%。其它的指标也具有类似的趋势。对于激酶抑制剂的数据则也是类似的趋势,但是整体都低于PubChem的数据结果。其中的原因可能是因为激酶抑制数据集中含有太多结构相似的数据以及因为测试频率的不确定造成数据不完整从而低估PD。
表2 机器学习模型在分子对数据集上的预测结果
作者也对单分子的数据集进行预测,结果见表3。可以看出无论是PubChem的数据集还是激酶抑制剂的数据集,分子对的预测结果要优于单分子的数据结果。这体现了分子对可能比单分子更能捕捉到有关混杂性的结构信息。
表3 机器学习模型在单分子数据集上的预测结果
此外,作者还尝试了不同的△PD的划分的数据集的结果,见图2。可以看到,随着△PD的增加模型的预测效果越好,说明分子之间的混杂性相差越小,越难分辨。
图2 不同△PD的数据集的预测结果
为了确认影响预测的结构特征,作者对特征相关性进行了分析。作者利用替代模型的方法用线性SVM模型来逼近预测模型,得到特征的权重,然后去除前100特征,重复以上操作,迭代40次,结果见图3。可以看到在对预测结果正向的特征中,S1FP更加重要,而负向特征中CFP则起着更重要的作用。
图3 随着特征的移出,移出的特征在各组分的比例
——小结——
作者构建了有关PC的分子对和单分子数据集,对利用常见的机器学习模型对其进行了预测,以及分析了影响预测重要特征。本文虽然提出了对于PC分析建立了基于分子对的结构预测,验证了分子对表征对于混杂性预测的优势,但是后续的系统分析仍有待加深,如对于预测重要特征具体对应的分子结构信息的讨论、以及对于多靶标药物的具体分析。
参考文献:
Blaschke, Thomas, Christian Feldmann, and Jürgen Bajorath. "Prediction of Promiscuity Cliffs Using Machine Learning." Molecular Informatics (2020).
点击左下角的"阅读原文"即可查看原文章。
审稿:徐优俊
编辑:蔡臣静
GoDesign
ID:Molecular_Design_Lab
( 扫描下方二维码可以订阅哦!)
以上是关于利用机器学习预测promiscuity cliffs的主要内容,如果未能解决你的问题,请参考以下文章
机器学习实战------利用logistics回归预测病马死亡率