生物信息学仿真软件SInC的初步使用教程
Posted cwxblog
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了生物信息学仿真软件SInC的初步使用教程相关的知识,希望对你有一定的参考价值。
1. 下载
软件下载:https://sourceforge.net/projects/sincsimulator/
paper: SInC: an accurate and fast error-model based simulator for SNPs, Indels and CNVs coupled with a read generator for short-read sequence data
2. 使用
SInC有三个部分,分别对应三个可执行文件
2.1 genProfile 模拟测序质量分数
生成质量分数配置文件,这个是为了第三步生成read而准备的,如果是双末端测序,需要准备两个fastq文件(可以从一些生物信息学数据库汇总下载),该程序会从fastq文件中模拟其测序质量分数的分布,并生成相应read长的质量分数配置文件,提供第三步调用。
./genProfile -R 1 -l 100 input1.txt
./genProfile -R 2 -l 100 input2.txt
# -R 1 表示从正向测序
# -R 2 表示从反向测序
例如,对于双端测序的read,共有两个配对的fastq文件,input.txt内容如下
# input1.txt 文件格式(一个也可以,正向测序的fq)
test1_1.fq
test2_1.fq
# input1.txt 文件格式(一个也可以,反向测序的fq)
test1_2.fq
test2_2.fq
2.2 SInC_simulate 模拟SNV,INDEL,CNV变异
这里仿真变异的三种类型是互相独立的,当其中一个的概率设置为0的时候,不会进行变异。
./SInC_simulate -S 0.002 -I 0.0001 -p 2 -l 1000 -u 150000 -t 2 chr21.fa
# -S 表示SNP发生变异的频率
# -I 表示Indel发生变异的频率
# -p 表示CNV发生变异的频率
# -l CNV变异的最短序列长度
# -u CNV变异的最长序列长度
# -t SNP变异中,转换:颠换的比例
# 最后是参考基因组fa文件
2.3 SInC_readGen 生成读段
把第二步模拟的fa文件,通过测序仪仿真生成fastq文件(默认是双端测序),这里还需要用到第一步生成的质量分数配置文件
./SInC_readGen -C 5 -T 1 -R 100 chr22_allele_1.fa 100_bp_read1_profile.txt 100_bp_read2_profile.txt
./SInC_readGen -C 5 -T 1 -R 100 chr22_allele_2.fa 100_bp_read1_profile.txt 100_bp_read2_profile.txt
# -C 表示测序深度
# -T 表示cpu核心数
# -R 表示每条read的长度
# chr22_allele_1.fa 第二步模拟的fa文件
# 100_bp_read1_profile.txt 第一步模拟的正向测序的质量分数配置文件
# 100_bp_read2_profile.txt 第一步模拟的反向测序的质量分数配置文件
2.5 官方readme
SInC has 3 steps:
Step 1: Quality profile generation // 质量配置文件生成
Run "./genProfile" to generate quality profile from your desired input file. //从你的期望的输入文件中生成quality profile
Usage:
./genProfile -R <read tag(1 for R1, 2 for R2)> -l <read length> <input.txt>
Example:
./genProfile -R 1 -l 100 input.txt // 输入文本为fastq文件列表
-> -R 1 means profile for R1.(Similarly run with -R 2 for R2)
-> -l 100 means read length 100
-> input.txt this file contains list of fastq files(1 file per line) to be used for profile generation.
Step 2: Simulation of SNPs, INDELs, CNVs // 模拟SNPs, INDELs, CNVs等变异
Run "./SInC_simulate" to simulate SNPs, INDELs, CNVs.
Usage:
./SInC_simulate [options] <in.ref.fa>
Example:
./SInC_simulate -S 0.002 -I 0.0001 -p 2 -l 1000 -u 150000 -t 2 chr21.fa
-> -S 0.002 means 0.002% of SNPs to be incorporated(合并) in the reference // 1000个碱基包含两个snp
-> -I 0.0001 means 0.0001% of INDELs to be incorporated in the reference
-> -p 2 means 2% of CNVs to be incorporated in the reference
-> -l 1000 means minimum size of CNV should be 1000
-> -u 150000 means maximum size of CNV should be 150000
-> -t 2 means ti/tv should be 2 //
NOTE:
1. SInC will generate fasta file for both the alleles, so run read generator on both the files separately.
//1. SInC 将为两个等位基因生成 fasta 文件,因此分别对这两个文件运行读取生成器。
2. Minimum evolutionary SNP rate is set to 0.0033.
//2.最小进化 SNP 率设置为 0.0033。
Step 3: Read generation
Run "./SInC_readGen" for both the fasta files generated in Step 2.
Usage:
./SInC_readGen [options] <in.ref.fa> <read_1_profile.txt> <read_2_prof.txt>
Example: desired coverage 10
./SInC_readGen -C 5 -T 1 -R 100 chr22_allele_1.fa 100_bp_read1_profile.txt 100_bp_read2_profile.txt
./SInC_readGen -C 5 -T 1 -R 100 chr22_allele_2.fa 100_bp_read1_profile.txt 100_bp_read2_profile.txt
-> -C 5 means fold coverage for chr22_allele_1.fa is 5
-> -T 1 means use 1 core
-> -R 100 means read length 100
3. 报错
该软件运行在linux环境下,需要gsl
如果运行过程中报如下错误,参考我的另一篇文章:关于部分软件运行报错,找不到libgsl.so.0的解决方案
error while loading shared libraries: libgsl.so.0: cannot open shared object file: No such file or directory
以上是关于生物信息学仿真软件SInC的初步使用教程的主要内容,如果未能解决你的问题,请参考以下文章