对抗新冠也用「梯度下降」,进化生物学家靠这个预测病毒进化方向

Posted QbitAl

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了对抗新冠也用「梯度下降」,进化生物学家靠这个预测病毒进化方向相关的知识,希望对你有一定的参考价值。

行早 发自 凹非寺
量子位 | 公众号 QbitAI

自从新冠大流行以来,病毒的变异和进化就没有停止过:德尔塔,拉姆达,奥密克戎……在和人类的斗争中也一直抢先一步。

在不断研究病毒进化过程时,有没有一种方法能让我们预判病毒的进化,找到效用更持久的疫苗呢?

还真有,在进化生物学领域,有一种叫做适应度地形(Fitness Landscape)的生物进化地形图,让科研人员可以用一种类似梯度下降的方法找到病毒进化的方向。

图注:模拟病毒进化路线

适应度地形图让病毒进化有迹可循

那这个适应度地形图是什么呢?

简单来说,这是一种三维图像,可以把基因型和生物对环境的适应程度联系起来。

例如一只企鹅的某个氨基酸序列发生了突变,导致在这段DNA指导下合成的蛋白质的功能发生了改变,让它开始脱发掉毛,最后变得不再抗寒而被冻死。

这个过程就是由于基因型发生了改变而导致了生物对寒冷环境的适应度降低。

那把这类基因型和适应度的关系反映到图上应该怎么画呢?

我们可以把生物的进化形象地看做一条路,将每种DNA或者RNA变化的可能性都视为空间中的一个点。

例如新冠病毒,它基因型不断变化的过程就相当于从一个点走到另一个点,从一个局部最优解跑向另一个局部最优解。

于是,我们可以用水平面代表基因型或者表现型的集合,z轴或者说高度代表对环境的适应度(Fitness)。

如果两种变体在平面上距离越近,说明它们基因型或表现型相近,这两个变体也就越相似。

如果某种变体对环境的适应度越高,就会在地形图上形成一个“山峰”,在下面的平面图中用“+”表示;适应度越低,则会形成一个“山谷”,用“-”表示。

此外,上图中还有一些虚线,代表具有相同适应度的不同基因型。

这样画出来一看,这不妥妥的一幅地理中的等高线地图~因此它的名字也叫Landscape。

在有了基因型和适应度的关系图之后,病毒就在自然选择的作用下,无论选择增加后代存活率还是改善蛋白质功能,都不断朝适应性最高的山峰靠拢。

只不过这种形式不是真正的梯度下降,从梯度的角度来说更像是“梯度上升”。

当环境改变,也就是山峰位置改变时,病毒基因型也会“追随”着山头的变化而变化:

这样,如果能够把握山峰的位置,我们就能重建病毒的进化历程,看清病毒基因组的变化和适应性(感染新宿主能力)之间的关系,将病毒的基因型与表现性联系起来。

适应度地形图可预判病毒的进化方向

当然,适应度地形图的作用不只是展示联系这么简单,有了它,我们还可以预测病毒的进化方向,研制持久有效的疫苗。

不过你可能会问,这个做法说起来简单,但是所有基因型的组合,就有很多种,怎么能处理这么大的数据量呢?

确实,如果把每一种氨基酸的变化对蛋白质功能的影响都记录下来,肯定不现实。

因为即使是长度只有100个氨基酸的小型蛋白质,它的变体就一共有20100个这么多,要知道全宇宙所有的原子数量也只有1080个。

但是要知道这些可能的变体数只是理论上的最大值,实际变异中是没有这么多的。

例如β-内酰胺酶这个蛋白质,它可以降解青霉素。如果其中五个单核苷酸突变,可以让它的抗药性提高10万倍。

而要积累这五个单核苷酸突变,可能的路径有120条。但是走哪一条路径的概率是不同的。

上图中绿色箭头指出的路径是可能性最高的,蓝色箭头次之,红色箭头指示的路径可能性最低。

在这120条路径中,就有102条都不会在自然选择的情况下发生,因为这些路径会产生有缺陷的蛋白质。

而在剩下的18条路径中,还可以继续缩小范围。因此从这个角度来说,蛋白质或者说变体的变化过程很大程度上是可以复制的,甚至是可以预测的。

同样地,对于新冠病毒来说,我们也不需要集齐所有的变体,因为新冠作为易于突变的RNA病毒,只要随便复制一组病毒遗传物质,其中自然包含很多变体。

然后把这些变体基因置于不同的培养细胞中,观察不同变体的竞争和表达出的蛋白质,就可以比较得出不同变体的相对适应度水平,进而为开发疫苗提供必要的信息。

“这样就可以完美描述病毒如何对抗宿主免疫系统了”,进化生物学家Tyler Starr说。

适应度地形图可定位病毒的重要部分

除了能够推断病毒的进化方向,适应度地形图还能提供一种定位病毒重要部分的新方法。

这种方法的大致思路是这样的:如果针对新冠的一部分蛋白创建一些变体,然后在培养细胞环境中观察不同变体的表现。

在这样的适应度地形图中,如果一些适应度山峰高而多,就说明这些部分不太重要,变异了照样活得好好的。

如果一些适应度山峰低而少,就说明这部分对病毒功能来说很关键,稍有变异就会很不适应。

于是,对于新冠病毒来说,Starr就针对其刺突蛋白,也就是新冠的“冠”,创建了4000种不同的受体结合域突变。

如果受体结合域不能有太大变化,一些变体就会引起免疫反应;反之则不会引起免疫反应。

实验结果发现,下图中红色的部分是较为重要的部分,涉及蛋白质重要功能,不能轻易改变。

One More Thing

在了解了适应度地形图的作用之后,最后还有一点需要注意的是,虽然有了这样的方法,我们和病毒的斗争也还会继续。

因为我们在设法阻止病毒传播的同时,对于病毒来说,环境就正在改变。

而一旦环境发生变化,“山峰”也会再一次移位,将人与病毒的斗争带入下一个回合中……

参考链接:

https://www.quantamagazine.org/evolution-landscapes-predict-whats-next-for-covid-virus-20220111/

以上是关于对抗新冠也用「梯度下降」,进化生物学家靠这个预测病毒进化方向的主要内容,如果未能解决你的问题,请参考以下文章

梯度下降法和粒子群优化算法的区别

线性回归有解析解为啥还要用梯度下降

监督学习:随机梯度下降算法(sgd)和批梯度下降算法(bgd)

新冠疫情使新科研项目减少36%,生物化学研究下降最多,女性科学家最受影响 | Nature子刊...

机器学习:梯度下降

机器学习梯度下降法应用波士顿房价预测