超快超省事!统计 Fasta 文件/序列相关信息

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了超快超省事!统计 Fasta 文件/序列相关信息相关的知识,希望对你有一定的参考价值。

参考技术A

我经常使用一个不起眼的功能, Fasta Stat 。但从未写过相关推送。主要是其使用过于简单,只要把 Fasta 序列文件放进去,点击 Start 就可以了。早上起来,突然想起了这一功能,并增加了一个 相对高频 的需求快捷完成选项。既然这一功能是我高频使用,那么相信他就跟 序列提取 功能类似。虽然不起眼,虽然是小功能,但是很实用,甚至或者是最能节约数据分析时间。
于是索性也写一个帖子

在日常分析中,我们常常手上会有一个 Fasta 序列文件,文件可能很小,数十 Kb,也可能很大 数十 Gb。当然,可以使用 TBtools 的 Big File View 进行快速浏览。更多时候,我们想要知道的或许是:

于是,你打开了 TBtools

于是看到

输入界面简单

可以看到,上述操作可以快速获得序列文件概览

有些时候 ,我们不仅仅想要知道序列文件整体情况,我们还想知道其中每条序列的长度,GC含量等等
于是操作起来也很简单, 只需要设置一个输出文件就可以

直接输出序列长度信息 。事实上,这个功能比较常用,比如一些FPKM/RPKM的计算,比如Basic Biosequences View等序列结构可视化功能等。
此时只需要补充勾选 Keep Only Sequence Length 即可。于是上述输出文件会变成,

快速查看几/一个序列的情况 。有时候,我们手上会有一个或几个序列,会想要快速查看其大体情况,比如长度。那么,直接切换输入选项到 Seq Input 即可。

Emmm... 功能整体就这么简单。其实我甚至认为,不需要这个推文,每个人看到 这个功能也知道怎么使用。当然,这是我个人写 TBtools 时一直期望。
真正优秀的界面化工具,应该是一打开就会使用,而无需Manual
不过,这有可能吗?哈哈。

如何从大fasta文件中找出自己想要的序列

参考技术A 你是想把蛋白的序列提取出来是吗,可以用perl写个脚本,先一个一个的打开pdb文件,然后读出以SEQRES开头的行,并写入到一个新的文件中。

以上是关于超快超省事!统计 Fasta 文件/序列相关信息的主要内容,如果未能解决你的问题,请参考以下文章

统计fasta序列条数

如何在 fasta 文件中并行化计算,其中每个处理器采用一个序列

新手求助:用perl处理fasta文件

获取 FASTA 中以特定氨基酸开头的蛋白质序列的标题行

perl处理fasta文件

Perl处理Fasta序列的又一实例