FASTA/Q序列处理神器---seqkit

Posted zhanmaomao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了FASTA/Q序列处理神器---seqkit相关的知识,希望对你有一定的参考价值。

该软件对于处理FASTA/Q十分方便,省去自己编写脚本

  • 安装

1 conda install seqkit
  • 使用

 

  • 序列操作(seq)

 1 ## 取方向序列
 2 seqkit   seq  test.fa   -r  >  test_re.fa
 3 
 4 ## 取互补序列
 5 seqkit   seq   test.fa  -p  >  test_com.fa
 6 
 7 ## 取方向互补序列
 8 seqkit   seq   test.fa  -r  -p  > test_re_com.fa
 9 
10 ## RNA---> DNA序列
11 seqkit   seq  test.fa   rna2dna     >    test_dna.fa
12 
13 ## 小写字母输出
14 seqkit  seq  test.fa  -l  >  test_lower.fa
15 
16 ## 大写字母输出
17 seqkit   seq   test.fa  -u >  test_upper.fa
18 
19 ## 指定每行序列的输出长度(为0的话,代表为一整行,默认的输出 长度是60个碱基)
20 seqkit  seq  test.fa  -w  10  >  test_10.fa  (指定序列的长度为10)
21 
22 ## 将多行序列转换为一行序列
23 seqkit   seq  test.fa   -w   0   >  test_w.fa
24 
25 ## 只输出序列
26 seqkit   seq  test.fa  -s  -w 0 > test_seq.fa
27 
28 ## 将只输出的序列的,指定每行输出的碱基数
29 seqkit   seq  test_seq.fa  -s  -w 40 > test_seq40.fa

 

  • Fasta/q之间以及与tab格式互换 

1 ## 将fataq文件转化为fasta格式.
2 seqkit fq2fa   test.fq   -o   test.fa
3 
4 ## 将fasta格式转化为tab格式
5 seqkit  fx2tab  test.fa >  test_tab.fa (没有seq参数)

 

 

  • 序列信息统计

1 ## 序列碱基含量
2 seqkit  fx2tab  -l  -g  -n  -i  -H  test.fa
3 
4 ## 序列长度的整体分布统计
5 seqkit  stat  test.fa

 

 

  •  提取序列(grep) 

1 ## 给定基因名字,gene.txt; 从基因所对应的fasta文件提取序列
2 seqkit grep -f gene test.fa >gene.fa

 

以上是关于FASTA/Q序列处理神器---seqkit的主要内容,如果未能解决你的问题,请参考以下文章

统计fasta序列条数

python3+Cobal Strikeshellcode免杀技术

基因序列碱基数测算

加速图像处理的神器: INTEL ISPC编译器 迁移图像旋转算法 - 从C代码双精度到 ISPC双精度

Android Parcelable反序列化报错笔记:java.lang.RuntimeException: Unmarshalling unknown type code at offset(代码片

这个 Python 神器,能让你摸半天鱼!