蛋白质结构模建初探

Posted zhengjm

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了蛋白质结构模建初探相关的知识,希望对你有一定的参考价值。

相关链接

http://3g.dxy.cn/bbs/topic/31372707?sf=2&dn=4 (modeller详细中文使用教程)
https://salilab.org/modeller/tutorial/ (modeller官方tutorial)

蛋白质模建的几种方法

同源模建

  1. Modeller URL:https://salilab.org/modeller/
  2. Swiss-Model URL:https://swissmodel.expasy.org/interactive

技术图片

其中的Modeller是基于Python语言构建的。相对来说,Modeller比其他的预测方法更快,但是准确度依旧有欠缺。这也是所有的同源比对方法的共同缺陷。Modeller需要本地构建确定的模板,之后进行本地计算,并不提供相关的在线服务(Swiss提供)。
所以我们选择了Swiss-Model进行在线识别。

折叠识别

  1. pGenThreader URL:http://bioinf.cs.ucl.ac.uk/psipred/
  2. FFAS03 URL:http://ffas.burnham.org

原理:
折叠识别是通过在蛋白质结构数据库中识别与待测序列具有相似折叠类型,进而实现对待测序列的空间结构预测。自然界中蛋白质折叠类型的数目是有限的,许多蛋白质虽然享有很低的序列相似性,但它们仍可能具有相同的折叠类型,这就是折叠识别的理论依据。现在普遍认为,折叠类型的总体数目会在几千以内,近年来,虽然许多新蛋白质的结构不断被解析,但折叠类型数目的增长趋于平缓。例如,CATH数据库(截至2014年7月18日统计数字)把PDB数据库中所有蛋白质结构归入1313个不同的拓扑类型( topology),且自2010年以来再没有新类型出现。对于一个待测序列,如果它所对应的折叠类型已被实验测定,如何通过合适的计算方法找出它所对应的折叠类型,就是折叠识别要解决的核心问题。

从头预测

  1. QUARK URL:http://zhanglab.ccmb.med.umich,edu/QUARK/
  2. Rosetta URL:https://www.rosettacommons.org/software

原理:
从头计算法的原理是蛋白质的天然构象对应其能量最低的构象,因此通过构造合适的能量函数及优化方法,可以实现从蛋白质序列直接预测其三维结构的目的。由于很难找到精准的能量函数,以及多能量优化过程中存在大量的局部最小值,目前从头计算法还远未像前两种方法那样成熟实用,它一直是蛋白质结构预测中最具挑战性的课题。从头计算法的物理化学意义明晰,不依赖于模板,有可能预测到全新的蛋白质结构,所以一直受到许多研究人员的青睐。最近,从头计算法已取得很大的突破,对一些含氨基酸数量为100~200的较小的蛋白质,有可能预测得到高精度的三维结构。所以,当采用同源模建和折叠识别无法实现对待测蛋白的空间结构预测时,可以考虑采用从头计算法来获得结构模型。虽然单纯运用从头计算方法得到的模型还不能可靠地用于分子对接和药物分子设计,但预测得到的一些低分辨率的结构模型结果可用来作蛋白质功能注释,新的算法也增强了我们对蛋白质折叠机制的认识。鉴于从头计算法涉及较多的物理化学原理和数学方法,为便于理解,不对具体的能量函数及能量优化方法展开论述,只是通过介绍一个较为流行的软件来加深读者对从头计算法的理解。

综合方法

  1. I-TASSER URL:http://zhanglab.ccmb.medumich.edu/i-tasser/

实地操作&预测结果

路线

graph TD Zero(Coronavirus 229E)-->A(Envelope protein seq from NCBI) A --Swiss-Model--> B[Structure 1] A --pGenThreader--> C[Structure 2] A --QUARK--> D[Structure 3] A --I-TASSER--> E[Structure 4] B-->F{Compare and Choose} C-->F D-->F E-->F

预测结果

Swiss

Target    MFLKLVDDHALVVNVLLWCVVLIVILLVCITIIKLIKLCFTCHMFCNRTVYGPIKNVYHIYQSYMHIDPFPKRVIDF
5x29.1.A  ------ETGTLIVNSVLLFLAFVVFLLVTLAILTALRLAAYAANIVNVSLVKPTVYVYSRVKNL-------------
Identity: 24.14%

技术图片
SWISS所选取的模板是SARS病毒的E蛋白,可以构成五聚体状态
技术图片

pGen-Threader

pGen-Threader并没有直接提供PDB文件,而是给出了相关的二级结构预测结果。

Conf: 97521045369999999999999999999999999999999979547643321889999989840788999102379
Pred: CCCCCCCCCHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHCCCEEEECHHHHHHHHHHHHCCCCCCCCCCCC
  AA: MFLKLVDDHALVVNVLLWCVVLIVILLVCITIIKLIKLCFTCHMFCNRTVYGPIKNVYHIYQSYMHIDPFPKRVIDF

技术图片

QUARK2

Sequence	MFLKLVDDHALVVNVLLWCVVLIVILLVCITIIKLIKLCFTCHMFCNRTVYGPIKNVYHIYQSYMHIDPFPKRVIDF
Prediction	CSSSSSCCCCSSHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHCCCSSSSSHHHHHHHHHHHHCCCCCCHHHCCC
Conf.Score	94789858975389999999999999999999999999999999968737645899999999986789996887589
H:Helix; S:Strand; C:Coil

技术图片

I-TASSER

Sequence	MFLKLVDDHALVVNVLLWCVVLIVILLVCITIIKLIKLCFTCHMFCNRTVYGPIKNVYHIYQSYMHIDPFPKRVIDF
Prediction	CSSSSSCCCCSSHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHCCCSSSSSHHHHHHHHHHHHCCCCCCHHHCCC
Conf.Score	90689717874179999999999999999999999999999998807602211899999999864589993665069

技术图片
技术图片

蛋白质预测结果评分

https://www.jianshu.com/p/f4e37c62399b (蛋白质三维结构预测、结果解读与评分)
https://servicesn.mbi.ucla.edu/SAVES/ (结果打分网站)

蛋白质的结果预测我们采用了UCLA的网站,进行直接线上打分。网站内部直接内置了6个打分的方式,只要达到其中的三种,可以认为符合基本要求,没有明显的错误。
进行打分的时候,需要有PDB文件,所以我们的二级结构预测此时不能进行评分,直接对其余三种结构进行评测。
技术图片

查询SPIKE蛋白的结合蛋白(APN蛋白)的相关蛋白

https://blog.csdn.net/weixin_43569478/article/details/83754328 (STRING库的相关用法)

我们使用STRINGSTITCH库得到了和APN蛋白存在关联的关系图。
STRING偏向大分子,STITCH更倾向于小分子一些。
技术图片
技术图片

Dock的简单实现(挖坑)

https://zhuanlan.zhihu.com/p/42834554 (分子对接软件综述)

以上是关于蛋白质结构模建初探的主要内容,如果未能解决你的问题,请参考以下文章

基于最短路方法的生物序列比对问题研究

伪代码

实用教程使用AlphaFold2进行蛋白质结构在线预测

MEME(Motif-based sequence analysis tools)使用说明

氢氘交换

破解蛋白质结构秘密的AlphaFold