什么是相似性?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了什么是相似性?相关的知识,希望对你有一定的参考价值。

相似性:序列间相似性的量度。

同源性:两条序列有一个共同的进化祖先,那么它们是同源的。

同源性是序列同源或者不同源的一种论断,而相似性或者一致性是一个序列相关的量化,是两个不同的概念。

PAM矩阵模块负值大小与序列相似性的关系是负向还是正向?pam值越大,则相似性越低,关系为负向.

生物信息学能解决什么问题?即研究对象和应用对象。

生物信息学:运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进行分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的学科。

DNA序列,CDNA序列,NCDNA序列,RNA序列,蛋白质序列等等各种。

什么是blast?简述其应用。blast:基于数据相似性的数据库搜索程序.应用:1.确定直系同源序列或旁系同源序列。2.确定哪些蛋白质和基因在特定的物种中出现。3.确定一个DNA或者蛋白质序列身份。4.发现新基因。

什么是分子进化树?常用的建树方法有哪些?举例常用的建树软件。

进化树又名系统树进化树,用来表示物种间亲缘关系远近的树状结构图在进化树中,各个分类单元(物种)依据进化关系的远近,被安放在树状图表上的不同位置。根据蛋白质的序列或者结构差异关系可以构建分子进化树或者种系进化树,

常用的软件:MEGA、PHYL JIP、PAUP、PHYML、PAML、Tree-puzzle、MrBayes

什么是NGS?自己查阅相关资料,简述二代测序和三代测序的基本原理。

我的答案:

NGS:下一代测序技术。以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。第二代测序:Illumina/Solexa Genome Analyzer测序的基本原理是边合成边测序。在Sanger等测序方法的基础上,通过技术创新,用不同颜色的荧光标记四种不同的dNTP,当DNA聚合酶合成互补链时,每添加一种dNTP就会释放出不同的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得待测DNA的序列信息。第三代测序技术原理主要分为两大技术阵营:第一大阵营是单分子荧光测序,代表性的技术为美国螺旋生物(Helicos)的SMS技术和美国太平洋生物(Pacific Bioscience)的SMRT技术。脱氧核苷酸用荧光标记,显微镜可以实时记录荧光的强度变化。当荧光标记的脱氧核苷酸被掺入DNA链的时候,它的荧光就同时能在DNA链上探测到。当它与DNA链形成化学键的时候,它的荧光基团就被DNA聚合酶切除,荧光消失。这种荧光标记的脱氧核苷酸不会影响DNA聚合酶的活性,并且在荧光被切除之后,合成的DNA链和天然的DNA链完全一样。第二大阵营为纳米孔测序,代表性的公司为英国牛津纳米孔公司。新型纳米孔测序法(nanopore sequencing)是采用电泳技术,借助电泳驱动单个分子逐一通过纳米孔 来实现测序的。由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,而ATCG单个碱基的带电性质不一样,通过电信号的差异就能检测出通过的碱基类别,从而实现测序。

ProtParam可以进行蛋白质基本的物理化学参数的计算。ProtScale可以进行氨基酸亲/疏水性的分析。TMpred可用于对蛋白质跨膜区预测、定位,该方法基于统计学结果,通过权重矩阵打分进行预测分析。SignalP可以预测多种生物体(包括革兰氏阳性原核生物、革兰氏阴性原核生物及真核生物)的氨基酸序列信号肽剪切位点的出现和定位。COILS:预测卷曲螺旋的在线工具。PROSITE ;通过对蛋白质家族中同源序列多重序列比对得到区别于其他蛋白质家族的保守性序列模式。InterProScan:蛋白质结构域和功能位点的集成数据库,它将SWISS-PROT、TrEMBL、PROTSITE、PRINTS、PFAM、ProDom等数据库提供的蛋白质序列中的各种局域模式,如结构域、基序等信息统一起来,提供了较为全面的分析数据。blastp:进行蛋白质序列同源性分析


我的答案:

分为4类。①只考虑单个氨基酸形成不同二级结构的倾向,并预测蛋白质二级结构②基于氨基酸片段(通常11-21个残基长度),考虑中心残基形成不同二级结构的倾向,并预测蛋白质二级结构③在基于氨基酸片段预测的基础上,结合了蛋白质序列的进化信息及长程作用信息等④将几种预测方法综合进行预测


什么是复杂疾病?其具有哪些遗传特性?

复杂疾病:绝大多数疾病的发生与遗传、环境、生活方式和年龄等多种因素有关,因而被称为复杂疾病。遗传特性:1.在家系中的传递不符合孟德尔规律,而且疾病基因型与表型之间存在多因素致病、多基因多层次调控以及临床表型复杂等特征。 2.复杂疾病的遗传易感性不一定是对疾病表型本身的直接影响,而可能是通过影响疾病的中间性状的间接后果。这些基因之间没有显性和隐性的区别,而是共显性;但是每个基因对表型只用较小或微小的影响,只用若干个基因共同作用,才可对表型产生明显影响。

参考技术A 指一个图形与另一个图形的相似程度 等你学到相似三角形你就会明白的了追问

thanks

本回答被提问者采纳
参考技术B 这是数学问题吗追问

做题的时候 上边说是相似性

什么是聚类算法?

什么是聚类算法?





聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。

聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。

聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。

聚类分析的算法可以分为划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(Model-Based Methods)。

聚类要求

1、可伸缩性

许多聚类算法在小于 200 个数据对象的小数据集合上工作得很好;但是,一个大规模数据库可能包含几百万个对象,在这样的大数据集合样本上进行聚类可能会导致有偏的结果。

2、不同属性

许多算法被设计用来聚类数值类型的数据。但是,应用可能要求聚类其他类型的数据,如二元类型(binary),分类/标称类型(categorical/nominal),序数型(ordinal)数据,或者这些数据类型的混合。

3、任意形状

许多聚类算法基于欧几里得或者曼哈顿距离度量来决定聚类。基于这样的距离度量的算法趋向于发现具有相近尺度和密度的球状簇。但是,一个簇可能是任意形状的。提出能发现任意形状簇的算法是很重要的。

4、领域最小化

许多聚类算法在聚类分析中要求用户输入一定的参数,例如希望产生的簇的数目。聚类结果对于输入参数十分敏感。参数通常很难确定,特别是对于包含高维对象的数据集来说。这样不仅加重了用户的负担,也使得聚类的质量难以控制。

5、处理“噪声”

绝大多数现实中的数据库都包含了孤立点,缺失,或者错误的数据。一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果。

6、记录顺序

一些聚类算法对于输入数据的顺序是敏感的。例如,同一个数据集合,当以不同的顺序交给同一个算法时,可能生成差别很大的聚类结果。开发对数据输入顺序不敏感的算法具有重要的意义。

7、高维度

(high dimensionality)

一个数据库或者数据仓库可能包含若干维或者属性。许多聚类算法擅长处理低维的数据,可能只涉及两到三维。人类的眼睛在最多三维的情况下能够很好地判断聚类的质量。在高维空间中聚类数据对象是非常有挑战性的,特别是考虑到这样的数据可能分布非常稀疏,而且高度偏斜。

8、基于约束

现实世界的应用可能需要在各种约束条件下进行聚类。假设你的工作是在一个城市中为给定数目的自动提款机选择安放位置,为了作出决定,你可以对住宅区进行聚类,同时考虑如城市的河流和公路网,每个地区的客户要求等情况。要找到既满足特定的约束,又具有良好聚类特性的数据分组是一项具有挑战性的任务。

9、解释性-可用性

用户希望聚类结果是可解释的,可理解的,和可用的。也就是说,聚类可能需要和特定的语义解释和应用相联系。应用目标如何影响聚类方法的选择也是一个重要的研究课题。

记住这些约束,我们对聚类分析的学习将按如下的步骤进行。首先,学习不同类型的数据,以及它们对聚类方法的影响。接着,给出了一个聚类方法的一般分类。然后我们详细地讨论了各种聚类方法,包括划分方法,层次方法,基于密度的方法,基于网格的方法,以及基于模型的方法。最后我们探讨在高维空间中的聚类和孤立点分析(outlier analysis)。

算法分类

很难对聚类方法提出一个简洁的分类,因为这些类别可能重叠,从而使得一种方法具有几类的特征,尽管如此,对于各种不同的聚类方法提供一个相对有组织的描述依然是有用的,为聚类分析计算方法主要有如下几种:

1、划分法

划分法(partitioning methods),给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:

(1) 每一个分组至少包含一个数据纪录;

(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);

对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。

大部分划分方法是基于距离的。给定要构建的分区数k,划分方法首先创建一个初始化划分。然后,它采用一种迭代的重定位技术,通过把对象从一个组移动到另一个组来进行划分。一个好的划分的一般准备是:同一个簇中的对象尽可能相互接近或相关,而不同的簇中的对象尽可能远离或不同。还有许多评判划分质量的其他准则。传统的划分方法可以扩展到子空间聚类,而不是搜索整个数据空间。当存在很多属性并且数据稀疏时,这是有用的。为了达到全局最优,基于划分的聚类可能需要穷举所有可能的划分,计算量极大。实际上,大多数应用都采用了流行的启发式方法,如k-均值和k-中心算法,渐近的提高聚类质量,逼近局部最优解。这些启发式聚类方法很适合发现中小规模的数据库中小规模的数据库中的球状簇。为了发现具有复杂形状的簇和对超大型数据集进行聚类,需要进一步扩展基于划分的方法。

使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;

2、层次法

层次法(hierarchical methods),这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。

例如,在“自底向上”方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。

层次聚类方法可以是基于距离的或基于密度或连通性的。层次聚类方法的一些扩展也考虑了子空间聚类。层次方法的缺陷在于,一旦一个步骤(合并或分裂)完成,它就不能被撤销。这个严格规定是有用的,因为不用担心不同选择的组合数目,它将产生较小的计算开销。然而这种技术不能更正错误的决定。已经提出了一些提高层次聚类质量的方法。

代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等;

3、密度算法

基于密度的方法(density-based methods),基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。

这个方法的指导思想就是,只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。

代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等;

4、图论聚类法

图论聚类方法解决的第一步是建立与问题相适应的图,图的节点对应于被分析数据的最小单元,图的边(或弧)对应于最小处理单元数据之间的相似性度量。因此,每一个最小处理单元数据之间都会有一个度量表达,这就确保了数据的局部特性比较易于处理。图论聚类法是以样本数据的局域连接特征作为聚类的主要信息源,因而其主要优点是易于处理局部数据的特性。

5、网格算法

基于网格的方法(grid-based methods),这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。

代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;

6、模型算法

基于模型的方法(model-based methods),基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。

通常有两种尝试方向:统计的方案和神经网络的方案。






来源:OFweek人工智能网

以上是关于什么是相似性?的主要内容,如果未能解决你的问题,请参考以下文章

相似性的结构相似性

数据库中的汉明距离/相似性搜索

比较相似性算法

如何度量两幅图像的相似度--结构相似度 SSIM 原理及代码

估计句子之间“近似”语义相似性的一些好方法是啥?

向量的相似性度量