如何用qiime根据otu代表序列把代表的otu序列抽出来

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何用qiime根据otu代表序列把代表的otu序列抽出来相关的知识,希望对你有一定的参考价值。

1. 稀释性曲线(Rarefaction Curve)采用对测序序列进行随机抽样的方法,以抽到的序列数与它们所能代表OTU的数目构建曲线,即稀释性曲线。
当曲线趋于平坦时,说明测序数据量合理,更多的数据量对发现新OTU的边际贡献很小;反之则表明继续测序还可能产生较多新的OTU。
横轴:从某个样品中随机抽取的测序条数;"Label 0.03" 表示该分析是基于OTU 序列差异水平在0.03,即相似度为97% 的水平上进行运算的,客户可以选取其他不同的相似度水平。
纵轴:基于该测序条数能构建的OTU数量。
曲线解读:
? 图1中每条曲线代表一个样品,用不同颜色标记;
? 随测序深度增加,被发现OTU 的数量增加。当曲线趋于平缓时表示此时的测序数据量较为合理。
2. Shannon-Wiener 曲线
反映样品中微生物多样性的指数,利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线,以此反映各样本在不同测序数量时的微生物多样性。
当曲线趋向平坦时,说明测序数据量足够大,可以反映样品中绝大多数的微生物物种信息。
横轴:从某个样品中随机抽取的测序条数。
纵轴:Shannon-Wiener 指数,用来估算群落多样性的高
参考技术A

你已经得到了otu_table.biom文件,也就是说你很清楚你需要哪些OTU。现在要做的只是,要得到对应OTU的DNA序列而已。

可以用下面的方法实现,找到你pick otu那一步生成的rep_set文件夹,里面有一个rep.set.fasta文件,用mega打开,你就可以看到各个OTU对应的DNA序列。你可以

    把不需要otu的删除,留下的即为需要的otu(考虑到需要的只有几十条,不需要的有几万条,推荐下面的方法);

    新建一个txt文本文件,将所需的序列复制、粘贴进去。注意:各个>otu123(otu名称,别忘了大于号>)单独一行,换行后紧接着粘贴DNA序列,把所需的序列粘贴进来,强制修改.txt后缀名为.fasta。

    搞定。后面就可以构建进化树了。

三类OTU聚类算法

三类OTU聚类算法

本文介绍一下3种OTU聚类算法,这些算法使用不同的规则来确定新序列是添加到现有cluster(OTU)中,还是形成一个新的cluster:

三类OTU聚类算法

complete linkage, 具体如furthest neighbor

average linkage, 具体如average neighbor 或 UPGMA(非加权组平均法) 

single linkage, 具体如nearest neighbor


三类OTU聚类算法

当使用3% cut-off作为cluster的划分依据时:

complete linkage要求新序列和一个cluster中的其他所有序列不相似度都低于3%,这个新序列才能进入这个cluster。

average linkage要求新序列和一个cluster中的其他所有序列不相似度的平均值低于3%,这个新序列能进入这个cluster。

single linkage要求新序列和一个cluster中的其他所有序列不相似度中存在一个低于3%,这个新序列就能进入这个cluster。

显然的,complete linkage标准最严,因此得到的OTU数量一般最多。


三类OTU聚类算法
三类OTU聚类算法

以上概念参考:2010年的EM

Link:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2909393/


三类OTU聚类算法

作者发现complete linkage会使得OTU数量虚高。因此先采用了 2% single-linkage的聚类方法,之后再使用average-linkage聚类,得到的OTU数量更准确。可以减少环境样本中30-60%的OTU,与此同时可以保留稀有物种。


三类OTU聚类算法
END



一个环境工程专业却做生信分析的深井冰博士,深受拖延症的困扰。想给自己一点压力,争取能够不定期分享学到的生信小技能,亦或看文献过程中的一些笔记与小收获,记录生活中的杂七杂八。

目前能力有限,尚不能创造知识,只是知识的搬运工。

欢迎分享,转载请联系我。

以上是关于如何用qiime根据otu代表序列把代表的otu序列抽出来的主要内容,如果未能解决你的问题,请参考以下文章

三类OTU聚类算法

扩增子图表解读3热图:差异菌OTU及功能

安捷致善内部培训之——不同OTU聚类算法比较研究

OTU rank curve(Rank Abundance 曲线)基本概念

R语言数据转置

扩增子分析解读6进化树 Alpha Beta多样性