统计fasta序列条数

Posted 2021-02-10 huangyinger

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了统计fasta序列条数相关的知识，希望对你有一定的参考价值。

1.统计大于号开始的行数或seqkit 工具

# 通过搜索>的数量
grep -c '^>' myFasta.fasta
1397492
#seqkit统计提取，速度也是很快的
seqkit stats t.fa -T | grep -v file | cut -f 4
1397492
# 统计 1-100bp 范围长的序列数
cat t.fa | seqkit seq -m 1 -M 100 | seqkit stat -T | grep -v file | cut -f 4

Total sequence length 5,759,798,599
Total ungapped length 5,759,798,599
Number of contigs 1,397,492
Contig N50 9,587
Contig L50 174,483
Total number of chromosomes and plasmids 0
Number of component sequences (WGS or clone) 1,397,492

2.fastq序列条数统计

压缩格式解压，统计行数除以4

# 通常以fastq.gz格式压缩
zcat  input.fastq.gz | awk 'NR%4==2{c++} END{print c}'

# 推荐下面的方法 pigz 会比gzip快10倍
pigz -dc input.fastq.gz | awk 'NR%4==2{c++} END{print c}'

# 如果不是压缩格式
cat input.fastq | awk 'NR%4==2{c++} END{print c}'

以上是关于统计fasta序列条数的主要内容，如果未能解决你的问题，请参考以下文章

超快超省事！统计 Fasta 文件/序列相关信息

如何在 fasta 文件中并行化计算，其中每个处理器采用一个序列

常用Linux命令

新手求助：用perl处理fasta文件

从文件中提取特定范围的 fasta 序列

perl 多fasta文件匹配，并提取匹配文件第一条序列