复杂系统的网络模型笔记--当初的我在瞎编什么怎么现在看不懂篇
Posted 东林的扯淡小屋
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了复杂系统的网络模型笔记--当初的我在瞎编什么怎么现在看不懂篇相关的知识,希望对你有一定的参考价值。
不同类型的复杂关系形成都可以以网络模型来表示,而不同的网络具有相似的性质,而且网络内部不同层次也具有一定的相似性。其中的一个重要性质是多层次的幂律分布(以不同的对象构建关系),而且局部的模块的边界/平均距离是一定的。纵向的层级结构在横向结构可以表示为不同的聚类的模块。
我们希望通过对社会网络的性质的研究为生物网络的研究提供一定的方向。因为相对来说这是比较宏观的研究,与我们想要的生物研究的微观层次具有一定的相似性(不同系统可能具有相同的网络拓扑性质),而且其数据比较好获得。
度分布、聚类系数等等统计学的度量是我们各种算法研究的基础。
中心节点是高连接度的节点,这存在着一定的分布,如同分子形成的的能量分布,在网络的概念中,连接度等等的指标也存在着一定的分布,会天然分化出不同的部分。而一个宏观的个体可以在不同分布曲线的不同部位,这可以抽象表示为一定的序列。
将分子看作节点,分子之间的相互作用看作边,而我们已有的各种文献就是对这些作用的数据库,我们认为特定位置的分子的浓度和其变化率可以揭示一定的作用关系。在统计层次,我们知道其会自然地产生一定的分化,从而具有各种分布,如幂律分布。而根据网络的分形结构假设,其分布的函数具有的相似性使得我们倾向于使用指数函数来表示(e^ax的导是其本身e^ax与a的乘积,这是一种自相似性质)。
由于网络的多层次,我们需要找到特定的对象从而形成比较本征的关系其实是一种不动点的寻找,这是一种如同原子层次的基本关系,能够大概率地成立。这样我们才能找到各种漂亮的曲线,如幂律分布就是很好的例证。当然这种关系是可以确信存在的,我们只是需要找到它们,而这需要我们选择特定的对象。其实在不动点的周围也存在着相对高连接度的节点,于是其也可以形成具有一定概率连接的关系,只是可能没有本征的关系那么明显,但也是存在的。
多层次的交互可以组合成为多种可能,其中特定的路径可能相对于其他可能路径更具对环境的适应度,从而能够产生如同干涉的效果,也可以理解为自然选择的适者生存,而在网络中是涌现。
存在局部最优和整体最优的博弈,最终达成的结果是一种均衡。
根据大规模的数据进行一定的分类乃至聚类,这是根据一定的相似性,如分布的模式,位置等等。可以根据一定的判断,即层次内部的连接度高于一定阈值,层次之间的连接度低于一定阈值,对这个阈值的选择可以进不同程度的划分。也可以使用距离作为相似性度量。然后构建算法,我们首先需要抽象化为集合的对象,然后选择一定的函数和数学对象作为工具,根据我们想要达到的目的选择一定的语句结构(顺序、循环、分支),然后进行多次计算最终收敛于一定结果。
网络建模,能够以高维的视角来理解各种情况的表达,以分布的层次来理解不同对象之间的联系,从而找到不同对象综合作用对特定对象的高概率影响。寻找特定序列的相关性,如同程序设计的底层变量定义和运算式,在这个基础上往上遍历形成的宏观网络结构可以以很大的精度来比较具体情况。最后能够对各种情况的发生做出良好的推测。
聚类,模块分化,这是网络的分布导致的结果。我们需要不同的统计指标如距离来定量测量。我们倾向于使用概率来解释,如聚类的产生是路径的增强,因为朋友的朋友更趋向于形成新的朋友关系,这是一种分布的基础,如同熵增趋势。
信息的扩散过程可以用于指代其他的层次的信息,如同计算机的就是过程,我们认为这种网络连接可以形成强有力的计算工具。网络结构就是底层,其功能的表达就是一种选择性表达的结果。网络的多层次之间存在竞争博弈,这是一种宏观的运算过程,这是一个马尔科夫过程,是基于一定高维的分布矩阵的选择性表达的序列。
网络的算法开发,快速收敛特定的路径。然后是网络分析
,可视化是一种高维模式的提取。网络的模式识别,网络是对基本数据解释的关系的高维层次的观察,通过一定的变换可以提取出更高维度的信息。网络层次的运算是几何,序列的运算是代数。邻接矩阵对关系的表示,这些矩阵元可以表示为各种基因,从而使得我们能够挖掘可能的模式。
网络结构的拓扑变构,可以发现新的模式,当然在这个过程还保持不变的就是比较本征的对象。这对应于原子的热运动,可以形成一定的稳定状态,即退火形成的能量分布。
网络的大基底的概率连接是具体连接的底层,这是一种期望的运算,比如说我们只有认识足够多的人才可能拥有少数朋友。
连接的度,可以具有一定的方向,可以考虑其拓扑变化形成的新关系,就是我们对应的序列运算的结果。我们还可以考虑其他的统计指标来指代其网络性质。
多层次的考虑,具体的网络经过,高连接的少数节点比低连接的多数节点更具价值,但必须达成一定的均衡,网络不允许极端。我们必须和整体社会挂钩才能成长,即避免形成孤立节点。虽然作为边界可能是网络的一种分布。
建立网络模型:随机过程,图论、概率和统计。幂律分布。层次分化。计算机模型与网络层次的信息传递的等价性。算法分析。通过对网络结构的逼近来起到最后的预测作用,根据已知推测未知,这是一种贝叶斯过程。线性代数,傅里叶变换。
网络是无限维的几何体,节点之间的连接是不同维度的表达,这都是概率性的。因此各种指标能够形成一定的分布。这是网络的自组织所体现的层次相似性性质。
所有节点之间理论上是可以构建关系的,只是由于天然的分布,我们能够观测到的是强度高于一定阈值的节点关系,因此在其他的情况下,低概率的节点连接可能通过贝叶斯公式的运算能够涌现出新的可以观察到的关系。
网络的关系可以理解为组合排列问题。因此各种分布,超几何组合可以应用。我们可以使用马尔科夫序列的路径形成的概率比较,即最大概率的可能是最优路径。不同的概率连接意味着不同的网络结构,具备不同的分布模式,如二项分布,正态分布、泊松分布。这是基于随机过程的,然后我们可以引入其他的分布从而使得这种线性的分布关系形成复杂关系,即不再呈现比较明显的分布模式,而是序列的多分布耦合。这是从随机图向小世界明显和幂律分布的无标度网络的跨越,产生各种分布分化。因为这是网络的趋势,即概率的概率分布,不同的节点之间的连接概率是具有一定分布的,如一般节点倾向于与中心节点连接(马太效应,富者愈富)。
多层次的指标:度分布,平均路径分布,最短路径分布,聚度
网络的成长,中心节点偏向。这是一种概率的分布导致的宏观层次的行为(隐马尔科夫模型的观测序列的表达)。这对应于生物体的发育,其复杂度增加,但参考博弈论的鹰鸽博弈,我们知道中心节点和一般节点最终会形成一定的均衡(其存在就是一种博弈)。而网络的更新体现于具体的中心节点的变化,但这种幂律分布是稳定的。网络结构形成与疾病的发生构建一定的对应关系,我们希望以基因的表达水平的变化来表示这个过程。基因的重要性的变化就可以参照中心节点的形成过程。(算法的统计指标,基因的重要性演进对应于疾病的发展,我们可以参见)
基于简单和边关系形成的高维关系:连通性,这是在高维层次的指标/性质。这需要中心节点才能形成多路径。
网络的分布分化和聚类的形成:亚层形成(高内聚低耦合,如同程序),这与中心节点的形成是相似的。本质上是如同分子热运动的能量分布的一种资源分配
强者崇拜是一种自然趋势,即使是我们一般做决策,相对来说最终的选择也是优势方。
网络的层次耦合就是相互作用,当然现在的思路是拓扑变构,因此我们可以考虑各种可能的删除增加变换导致的拓扑结构变化。网络的鲁棒性。不同层次的标准形成的路径干涉。
团体的聚类形成可能是网络的相互作用的基础。相似性的度量(序列匹配)可能是其高维路径形成的运算。我们使用药物是破坏其稳定性,而平常情况我们有希望网络的稳定性足够高,对应于我们的各种医学预防措施。
本质上我们的各种实验手段都是对网络的攻击来测量其可能的反应,即我们把生物体这个网络视为一种黑箱,我们只能通过输入和输出的统计数据来总结得出一定的关系。各种因素的处理是对网络拓扑结构的改变,我们希望能够定量来分析最终过程。这是概率性连接和作用的网络,各种级联式的反应也是一种概率性的行为。目前我们还是只能提供有限的节点和边的处理来摸索比较确定的关系变化,这是微积分的还原论式思路,我们想要使用整体论的思路来探讨大规模地改变和识别网络的可能改变模式,一开始可以理想化为多变量的综合作用,也可以视为序列的作用,不同层次的作用就是序列耦合进行一定的整体运算,直到停机。层次的耦合导致的高维结构形成(如悖论需要我们进行耦合的运算)可能能够解释这种变化。
我们假设网络的运算在一定时间是具有连续性的,即在我们施加影响时我们可以构造节点之间的路径,这是高维结构,使得我们能够在这个层次的节点运算可以理解低维层次的多变量作用。路径/环路之间的关系运算可以参考博弈论。
我们需要考虑节点和边被影响时网络产生的代偿使得整体网络的拓扑结构产生一定的变化,理论上中心节点被影响能够产生更大的影响,当然一般节点的积累也是可以不断逼近这种程度的影响,参见我们的很多疾病都是日常生活的不良习惯的积累的结果。这可以视为中心节点之间存在一定的竞争博弈,当其被抑制时,其他的中心节点会倾向于扩大其作用范围,但整体的功能就运转不良,最终会不断形成新的竞争博弈状态来维持机体状态的生存,这是更高维度的运算,这可能就是病来如山倒,病去如抽丝的原因,前者是网络的代偿功能耗尽,后者是网络需要从基本疾病的状态转换为健康的状态,如同能级的跃迁,需要更多的能量。疾病状态就是机体内部的各个层次/中心节点的竞争博弈形成的高维结构,与健康状态是等价的,都是这些疾病层次的选择性表达,当然健康是一种概率性的事件,是很低概率发生的,我们需要多方面的支持才能维持这种低熵/高周期性的结构。
模仿基因敲除等等对基因表达调控的手段,这是对网络的节点以及边的影响,其整体的网络变化如各种通路的表达水平变化就是各种模块之间联系的变化导致的后果。一开始是逐条逐条地删除/增加,然后是大规模的作用即多变量的影响,其综合的影响体现于网络的拓扑结构的变化,如果模块之间的连通性下降,即这些节点的连接(不动点式的中心节点)被破坏,有更大的概率产生比较剧烈的影响。当然,一般节点的集合可以等价于单个这些节点的作用,只是这种方法效率太低,我们还是倾向于使用影响中心的的局部最优方法。
当模块之间的连接减少/增加超过一定阈值时,即层次之间的交互程度变换时,产生的网络拓扑结构变化就对应于各种影响因素处理后的整体环境变化。因为我们的网络结构的稳定性来源于各个层次的交互作用,其可以在一定程度上做等价转化,即代偿,而这些关键通路的破坏神的网络的稳定性下降,更容易被攻击,使得网络这种耗散结构被破坏其周期性,对应于机体的各种疾病。宏观的统计指标可以有度分布的偏移、最短路径的分布变化,平均距离的改变等等。对应于各种疾病的各种病变指标。
不同层次的聚类,不同阈值形成的关系可以形成不同的模块/团块。
我们试图使用网络学说来理解信号通路:网络的保守性,这是基本结构的形成。在这个基础的各种新组合成为可能。这些模块对应于生物体的各种信号通路,然后相互作用形成高维的概率矩阵,然后在具体的功能(细胞增殖、凋亡等等)中选择性表达,各个信号通路内部的蛋白相互作用是有方向的,可以以各种磷酸化和活化等等来构建方向联系。我们必须注意这是多路径同时发生的,即可能会有矛盾的作用,这就形成一定的竞争博弈,最终能够达成一定的均衡。最终博弈我们可以引入利益矩阵,如同生物信息学的打分矩阵。不同的层次具有不同权重。
然后这些蛋白都可以和外部的其他蛋白构建一定的连接(强度具有一定的分布),从而形成各种高维结构如反馈结构,但他们的联系通过贝叶斯的概率遍历超过一定阈值时可以视为表达,从而对应于各种功能的构建,如细胞增殖凋亡等等。其可以有比较共同的末端通路,即调控基因表达的转录因子。
模式识别,各种边际量对个体的各种行为作出比较准确的预测。使用各种工具,我们需要在这种底层来理解复杂的世界。
小世界模型的平均最短距离是节点数的log,这是和幂律分布相互耦合的性质(不动点式的本征,是对整体的性质描述)。这是在随机模型进一步的发展,介于完全随机和规则的模型。
中心节点的出现对应于细胞的生长抑制?
拓扑结构的等价性转换,通过构建一定的指标来构建这种等价关系。不同层次的选择性表达可以等价于特定的层次,这是线性代数的傅里叶级数的思想。
密度等等的变化不是底层,底层是其连通性,即形成的路径,这可以使用函数的连续性来表示。
网络的节点路径需要积累到一定程度才能产生刺激效应,即激活下游通路,可以以贝叶斯公式来计算最终概率。
相互作用可以表示为节点的连接、节点的形成和删除,这是更高维度的网络拓扑结构变化。可以起到信息传递的高维作用。各种大规模层次回归分析可以提供个体行为预测的基底,即个体在一定概率会倾向于实施某种行为,当然由于这是通过统计得出的,不一定符合独特的个体的行为模式,但只是我们的局部最优化的第一步,我们接下来可以使用更多的概率事件来精确定义个体的可能的行为模式(贝叶斯公式来不断提高后验概率直到超过一定阈值)。在我们通过多层次的统计和分析后可以得出个体的特定模式,使得我们能够以一定精度来推测个体可能的行为,这需要我们之前就构建好数据库来提供经验的支撑。理论上我们能够在群体层次水平达到很好的预测精度,就如同隐马尔科夫模型的转移概率矩阵可以通过简单的统计来得到。一般来说我们需要把个体提取出其特征来拟合这种群体分布的具体位置来做到个体层次的预测;当然我们有另一个思路就是构建多个概率矩阵,类似于多层次的耦合,使得具体的序列表达不是随机初始的。理论上来受可识别的模式就是信息的度量,如生活规律的个体具有更低的信息熵
病理切片的各种细胞的组合可以理解为一定的网络结构,对不同种类的细胞的统计分析不仅仅是各种绝对数目的测量,还有各种不同类型细胞之间的相对比例,以及其相对的空间位置,这都是具有一定的模式的,通过这些特征的识别我们最后可以进行一定的准确定义,即确切的病理诊断。这就可以抽象化为网络的不同聚度的节点的组合,我们可以进行一定的定义来模拟,然后进行一定的变换来最终识别其模式,如不同类型的细胞可以以不同面积的节点来表示。然后细胞外基质的路径可以表示为一定的节点之间的连边(纤维素、结缔组织等等),在这个基础可以进行一定的聚类分析。排序,排列组合可能也是一种方法,这是出于我们人类认识能力和服务有限所作出的简化,我们可以快速作出选择(如星级酒店),最后做到精确的信息匹配,从而能够提供各种预测,如广告投放,服务推荐。
网络的演化和生物的发育。利用各种趋势,如中心节点偏向,熵增的抵抗
基因表达网络与疾病的相关性构建,其表达模式对应于特定疾病的发生。所谓的中心节点可能是我们能够对疾病产生比较有利影响的药物靶点。当然一般节点也可以作为表达,但效率太低。
药物组合来治疗疾病:网络分析,以可能的作用机制的药物的具体作用效果来评价,然后不断筛选出最有效的组合。在这个过程中,我们根据连续性假设可以形成一定的回归等等复杂的函数,从而做出一定的预测。当然我们要考虑浓度这个老大难的问题。线性组合的逼近,傅里叶级数。最后能够通过机器学习挖掘各种可能的特征乃至于形成一定的模式。由于医生开药不是随机的而是遵循一定原则的,我们可能有更大的难度来形成一定的本征,因为不同于食品的配方,其指标是人的味觉,比较好测量,或者说可以多次重复;而药物的使用更多时候是一锤子买卖。当然我们还是能够找到一定的高连接度/相关性的组合的,这就是我们的各种经验。我们希望能够通过模式识别来提供更多的药物组合可以作为经验使用,可以寻找各种等价的药物组合,测量各种药物的作用比例等等。
药物的作用是对网络的攻击,使得网络拓扑结构产生一定的变化,我们使用药物的目的是使得各个层次/中心节点的组合/博弈竞争恢复到原有的状态,如同外界施加能量(信息与能量的等价性)使得网络跃迁到更高能级,然后可以重新跃迁回低概率存在的能级。当然我们需要多层次的耦合来运用贝叶斯公式使得其跃迁到我们想要的能级的概率更大。
经济周期,大停电等等都是概率性的模式涌现,这是网络的概率选择决定的,其内部的各种层次的相互作用构成一定的转移概率矩阵,使得网络会具体表达为特定模式的序列。
各种对应关系可以一定的数据结构来表示,然后加以处理,如python的字典的key和value就是简单的关系构建。
网络的医学应用就是我这个医学生所孜孜以求的梦想。我们能够应用各种数学来对医学这种半经验的科学进行改进;我们能够使用大规模的数据分析来更好地诊断治疗;我们能够对多变量的影响进行综合研究……这一切,都需要数学和计算机科学的助力。
社交网络的信息扩散
共振的信息传递,网络结构的信息传递,可以理解为场的传递
网络是由节点集合V={v1,v2,..,vV}和边集合E={e1,e2,...,eE}所组成的集合N={V,E}。网络科学是研究利用网络来描述物理、生物和社会现象,建立这些现象预测模型的科学.本质上是研究其内部复杂相互作用涌现出的新性质,使用科学方法研究网络有组织的知识,包括:动态网络分析,社会网络分析,复杂网络研究,网络优化、生物网络和图论。研究主要方法:采用统计学的方法来收集真实网络数据及实验数据,建立模型,进行仿真、分析和预测。
从分子水平上研究生命现象物质基础的学科。研究细胞成分的物理、化学的性质和变化以及这些性质和变化与生命现象的关系,如遗传信息的传递,基因的结构、复制、转录、翻译、表达调控和表达产物的生理功能,以及细胞信号的转导等。复杂网络:具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称为复杂网络,生命系统中形态与功能上特化的细胞集团之间,以及各种生物大分子在组合上相互关联的结构形式。我们可以理解为一个足够复杂的函数,以还原论的思路来理解就是只要认识了构成生命的分子基础(基因和蛋白质)就可以理解细胞或者个体的活动规律,如同微积分的无穷小量的累加最后计算出高维量(参考牛顿-莱布尼茨公式),我们其实可以利用同样的思路,以组分之间的相互作用为基本的无穷小量,堆积形成高维的结构。如同泰勒级数。大多数生物特征都来自于细胞的大量不同组合,比如蛋白质、DNA、RNA和小分子之间的交互作用。理解复杂的交互作用网络的结构和动力学是如今理解生命的必须。
网络中的基本结构模块或模式,可以以一定的集合来表示存储,然后可以通过集合的并交补等等来构建一定的逻辑关系,从而形成高维的关系。
利用动力学的分析方法研究系统的动力学规律,理解生物系统的内在动力学机制.如反馈、负反馈和时间延迟等控制机制
在蛋白质互作网络等生物网络中,支持生命基本活动的必需基因或其翻译产物的比例在中心节点中出现的频率显著高于一般节点。同时,人类蛋白质互作网络的研究表明,中心节点显著富集着与癌症等遗传性疾病相关的基因。
这种现象体现了部分节点间存在的密集连接性质,可以用聚类系数(clustering coefficient)CC来表示
一个节点的介数(Betweenness)是衡量这个节点出现在其它节点间最短路径中的比例介数表明了一个节点在其它节点彼此连接中所起的作用。介数越高,意味着在保持网络紧密连接性中节点越重要。
紧密度(closeness)是描述一个节点到网络中其它所有节点平均距离的指标。
拓扑系数(topology coefficient)是反映互作节点间共享连接比例的测度
直径(diameter)是描述网络总体性质的一个属性。网络的直径是指网络中任意两个连通节点间距离的最大值。网络的直径代表了网络中节点连接可能出现的最远距离,标志着网络紧密的程度。
网络的平均距离(average distance)也是描述网络总体性质的一个属性。网络的平均距离是指网络中任意两个连通节点距离的平均值,也是衡量网络紧密程度的重要指标
闭包定理,朋友的朋友之间更容易变成朋友,这是聚类的底层原理。启示我们具有相同作用对象的分子通路之间更容易形成一定的相互作用。三元闭包能够影响网络的内部结构。
弱关系和强关系有一定的比例,强少弱多,因此有时候弱关系能够带来更远的机会,毕竟强关系是同一圈子的,信息流通,但新的信息会比较少。
网络结构能够启发可能具有相互作用的对象的存在。相似性能够其实各种性质的存在。
以上是关于复杂系统的网络模型笔记--当初的我在瞎编什么怎么现在看不懂篇的主要内容,如果未能解决你的问题,请参考以下文章
CS224W| 笔记2.2:网络模型(Graph Model)