看不上机器学习的生物学家,在蛋白结合识别上遭遇真香
Posted 神经现实
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了看不上机器学习的生物学家,在蛋白结合识别上遭遇真香相关的知识,希望对你有一定的参考价值。
计算生物学家布鲁诺·科雷亚(Bruno Correia)的实验室里曾经有条规矩:不允许使用机器学习算法。那时他认为机器学习并非真正的科学。而现在,科雷亚已将其用来检测负责许多生物过程的复杂折叠分子——蛋白质之间潜在的相互作用,这比传统的方法快了4万倍。2020年2月,《自然-方法》(Nature Methods)期刊使用了他研发的这套系统作为封面。当再谈到他早期不愿接受机器学习算法时,科雷亚承认:“我错了,我欣然接受我的错误。”
是什么让他改变了想法?答案是几何深度学习(Geometric deep learning)。这是人工智能领域的新兴分支,通过数据训练,它可以分析曲面上的特征模式。
蛋白质通过结合彼此的“凹凸”位点来进行相互作用,就像三维拼图那样。这个著名的“蛋白折叠问题”,自20世纪中期以来就困扰着科学家们,研究者们用了数十年的时间尝试搞清楚它们是如何交互的。他们试图通过解码组成蛋白质的氨基酸构成以及其最终的3D形态,来了解蛋白质相互作用。在1999年,IBM开始研发其蓝色基因(Blue Gene)超级计算机来解决折叠问题;20年后,DeepMind则应用当下最先进的来解决它。
- Gianluca Fallone -
科雷亚所研发的系统,MaSIF(分子表面相互作用指纹分析)忽略了分子的内部结构,从而绕开了蛋白质3D结构的固有复杂性。取而代之的是,该系统通过扫描蛋白质的2D表面来得到交互“指纹”,并由神经网络学习其特征,预测另一个蛋白质在位点结合的情况。哈佛大学医学院中使用深度学习的蛋白质研究者穆罕默德·阿尔库雷希(Mohammed AlQuraishi)说:“这个系统的概念就是,当任意两个分子相遇时,它们最终呈现出的就是两个表面。因此,你只要了解这些表面就够了,这种方法是非常非常创新的。”
聚焦于分子表面特征,以预测蛋白质相互作用,该框架可以帮助人们加速“从头设计蛋白质”(de novo protein design),即尝试从零开始合成蛋白质,而不是依赖于天然存在的蛋白质种类。迈克尔·布龙斯坦(Michael Bronstein),帝国理工学院的一位几何深度学习专家则认为,MaSIF也可以应用于基础生物学:“比如研究癌症是如何影响蛋白质特性的。通过探索癌症变异是否摧毁了蛋白质中的某些结构,使得它们表现出另外一种形式,从而无法与原来特定的蛋白质进行结合。MaSIF可以用来解答这些本质问题。”
- Jerrin Varghese -
如果想了解深度学习是如何得到蛋白质指纹的,布龙斯坦建议我们参考2000年早期的数码相机。这些相机内置的人脸检测算法和该系统的作用差不多。他解释道:“你只需要检测这里是否有张脸,有着一双眼睛,一个鼻子和一张嘴巴就可以了。而不用管那是高鼻子还是塌鼻子,是厚嘴唇还是薄嘴唇。”
现代相机则更加高级。它们能够识别出特定的人物,提前帮你找出相册中包含该人物的照片。
正是深度神经网络的出现使得相机的功能变得更加高级,它为计算机提供了一种方法,从训练数据中学习不同人物之间的细微特征差别。该过程包括收集同一张脸的众多不同照片,并将这些照片标注为同一个人。这样,你就不需要提前告诉计算机这个人的特征是什么,如绿色的眼睛、眉间距宽、黑色的头发等,这些特征加起来就使得这张脸独一无二。现在,只要有足够的标注数据,神经网络就可以自己学习到这些区别特征。
- Refik Anadol -
MaSIF在蛋白质上也做着同样的事情。之前的那些蛋白质交互检测方法就好比那些基础的人脸检测算法。它们需要研究者事先定义一些特定的几何模式,如蛋白质上特定形状大小的“凹凸”位点,然后去搜索符合这些特征的结合位点。然而,MaSIF只需要事先了解一些与蛋白质交互相关的基本表面特征,例如,平面的物理曲率(凸起还是凹陷)、电荷,以及是疏水还是亲水。随后,在训练过程中,神经网络把这些特征结合生成指纹,使其能够检测特征更复杂的蛋白。
直到最近,这种机器学习方法才被用在曲面、不规则的蛋白质表面上。正是几何深度学习的兴起开辟了研究道路。在为期两周的合作研究中,布龙斯坦把该方法推荐给了任职于洛桑联邦理工学院的科雷亚,科雷亚极力称赞道:“原先我们用人工手段进行识别,那可真的是进展甚微。但现在全要归功于他!”
- Oleksandr Bereziuk -
MaSIF的版本之一,MaSIF-site,可以扫描整个蛋白质表面,并预测出另外一个蛋白质最可能结合的位置。这个方法就像在一块曲面的画布上直接画出目标。科雷亚解释道:“这就是我们所谓的单体问题(one-body problem),你可以将其视为定位特定蛋白质功能位点的方式。”与两项业内领先的蛋白分子交互预测系统相比,MaSIF-site的处理效率要高出约25%。
该系统的另外一款版本MaSIF-search,解决了科雷亚所称的多对多问题。与预测某个蛋白质如何与目标分子结合不同(如典型的分子对接模拟),该系统可以对比多个蛋白质的交互指纹,搜寻结合部位。科雷亚解释道:“在一个细胞中约有数以万计的蛋白质,并且其中的大部分都一直在与别的蛋白质相互碰撞。” 在这项多对多分析任务中,MaSIF虽然没有能够超越目前业内最领先的分子对接预测系统——它在100个随机蛋白质集合中预测出了约一半可能的结合方式。但这个的预测系统需要花费约100天来完成搜索运算,而MaSIF系统只需要4分钟。
布龙斯坦认为这种巨大的速度提升为基础研究带来了“瞩目的可能性”。毕竟在人类身体中,蛋白质组成的功能网络包含数十万的蛋白质交互。他说:“研究创建复杂的蛋白质交互关系表需要花费很长的时间,有了类似MaSIF这样的方法,虽然可能只是粗略的分析,但它至少可以快速地为任何有机体构建初步的蛋白质交互网络。”
- Oleksandr Bereziuk -
阿尔库雷希意识到,虽然MaSIF使用指纹深度学习方法来预测蛋白质交互是可行的,但它无法捕捉到被称作“诱导契合”的现象:当分子靠近彼此时,它们的表面形状(以及其化学性质)会改变。换句话说,直到两个蛋白质马上就要接触的时候,分子表面才会出现契合的指纹。由于诱导契合取决于蛋白质的复杂空间结构,因而MaSIF无法捕捉到它。阿尔库雷希说:“生物进化中最精妙部分可能正是诱导契合。而MaSIF虽然有着这样的不足,却仍能拥有很好的效果,这很令人惊讶。”
将诱导契合以及其他平面动力学引入MaSIF系统,是科雷亚未来的研究计划。“对我来说,这是理解蛋白质功能的最终攻坚领域,它可能就是我接下来十年的任务。”但就目前而言,他还有其他紧迫的事情要做——使用MaSIF扫描SARS-CoV-2病毒表面的S蛋白(Spike蛋白质),正是这种病毒引发了新冠疫情。他说:“我们正在尝试获取病毒的指纹。为了消灭病原体,除了那些已知的方法,该病毒似乎还有其他的弱点可攻破。”科雷亚已经将该结论用于从头合成抗病毒蛋白,他希望今年就能将研究结果发表。他说:“如果能够基于病毒蛋白的表面指纹来设计出新的对抗蛋白,阻止病毒入侵宿主细胞,那将非常振奋人心。现在研究正在不断取得进展,我可没空睡懒觉。”
译者:Lu | 审校:邮狸
编辑:Leon | 排版:光影
原文:
https://www.quantamagazine.org/new-machine-learning-system-decodes-how-proteins-interact-20200603/
以上是关于看不上机器学习的生物学家,在蛋白结合识别上遭遇真香的主要内容,如果未能解决你的问题,请参考以下文章
mCRPC|白蛋白结合配体177Lu-PSMA-ALB-56的生物分布和剂量测定