Nature 亮点丨精确预测蛋白结构可以依赖Google吗?DeepMind团队开发新型深度学习算法精确预测蛋白结构

Posted BioArt

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Nature 亮点丨精确预测蛋白结构可以依赖Google吗?DeepMind团队开发新型深度学习算法精确预测蛋白结构相关的知识,希望对你有一定的参考价值。

撰文 | 奚望

责编 | 兮


蛋白质结构预测一直是热门的基本问题,因为结构决定了功能。传统的蛋白结构预测主要依赖片段组装法(fragment assembly)。人们通过分析PDB(Protein Data Bank)等数据库中的蛋白结构得到某种统计势能,然后以此为目标,通过不断地随机采样来选择最小化该目标势能值的结构。片段组装法在实施中通常是每一步改变结构的一小部分,而保留其余的大部分,因此需要经过上千步和多次重复才能获得理想结构。

 

谷歌公司深度学习方面的核心团队DeepMind(是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技——DeepMind Technologies Limited,在2014年被谷歌收购,一直致力于用人工智能和神经网络技术解决不同场景下的学习问题。继围棋博弈算法AlphaGo之后,DeepMind转向了基于氨基酸序列的蛋白质结构预测,提出了名为AlphaFold的深度学习算法,并在国际蛋白质结构预测比赛CASP13(Critical Assessment of ProteinStructure Prediction)中取得了优异的成绩。


2020年1月15日,DeepMind团队Andrew W. Senior等在Nature发表文章 Improvedprotein structure prediction using potentials from deep learning,展示了AlphaFold算法的细节和表现。

 

 

近年来蛋白结构预测领域出现了一种基于DNA序列协同进化(evolutionary covariation)的新方法。人们先找到和目标序列相似的DNA序列,并进行多序列比对(multiple sequence alignment,MSA,其中序列变化存在相关性的位点就存在相互接触的可能。借助一些统计方法,比如神经网络,就可以从序列比对的数据中预测出氨基酸残基的接触概率。

 

AlphaFold算法流程如图所示:以目标序列本身和目标序列与相似序列的比对结果为特征输入神经网络,首先通过卷积神经网络进行特征提取,学习到这些蛋白的势能分布。接着,只要通过梯度下降法,就能获得对于目标序列本身势能最低的结构。预测的结果包括蛋白骨架的扭转角度和两两残基之间距离。


Nature 亮点丨精确预测蛋白结构可以依赖Google吗?DeepMind团队开发新型深度学习算法精确预测蛋白结构


卷积神经网络部分大小为64x64,即每一步推断64个残基间的相互距离。以CASP上的T0955为例,通过PDB数据库上所有蛋白结构的训练后,神经网络作出了和实际残基距离分布非常相似的精确预测。该模型同时也能输出预测的不确定性大小。

 

在获得残基间距离后,作者据此构建了一个势能Vdistance。他们将该势能表达为骨架转角的函数,并使用L-BFGS梯度下降法逐步逼近势能最小值,并从而获得相应的骨架转角度数。预测的精确度(TM分值)随着梯度下降的步数迅速增加。

 


在CASP比赛中,相较于其他算法,AlphaFold在同样条件下能显著地预测出更多不存在同源结构的新结构。而无论同源结构是否存在,AlphaFold预测精确度也都比另外两个之前的最优模型Raptor-X Contact和TripletRes要高。

 

作者据此认为,AlphaFold的成功显示了一个经过仔细设计的深度学习模型是可以同时完成预测蛋白质残基间距离和蛋白骨架转角的任务。进一步发展该类模型有利于推进蛋白结构预测的进步。

 

原文链接:

https://doi.org/10.1038/s41586-019-1923-7


以上是关于Nature 亮点丨精确预测蛋白结构可以依赖Google吗?DeepMind团队开发新型深度学习算法精确预测蛋白结构的主要内容,如果未能解决你的问题,请参考以下文章

实用教程使用AlphaFold2进行蛋白质结构在线预测

谷歌提前开源AlphaFold 2!NatureScience同时公开两大蛋白质结构预测工具

谷歌提前开源AlphaFold 2!NatureScience同时公开两大蛋白质结构预测工具

SGPPI: 使用GCN在严格条件下对蛋白质相互作用的结构感知预测Briefings in Bioinformatics, 2023

Nature:哈佛&牛津开发基因致病性预测模型,现已成功预测3600万个致命基因突变...

项目一:基于自编码器的药靶关系预测