生物信息学仿真软件SInC的初步使用教程

Posted cwxblog

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了生物信息学仿真软件SInC的初步使用教程相关的知识,希望对你有一定的参考价值。

1. 下载

软件下载:https://sourceforge.net/projects/sincsimulator/
paper: SInC: an accurate and fast error-model based simulator for SNPs, Indels and CNVs coupled with a read generator for short-read sequence data

2. 使用

SInC有三个部分,分别对应三个可执行文件

2.1 genProfile 模拟测序质量分数

生成质量分数配置文件,这个是为了第三步生成read而准备的,如果是双末端测序,需要准备两个fastq文件(可以从一些生物信息学数据库汇总下载),该程序会从fastq文件中模拟其测序质量分数的分布,并生成相应read长的质量分数配置文件,提供第三步调用。

./genProfile -R 1 -l 100 input1.txt
./genProfile -R 2 -l 100 input2.txt
# -R 1 表示从正向测序
# -R 2 表示从反向测序

例如,对于双端测序的read,共有两个配对的fastq文件,input.txt内容如下

# input1.txt 文件格式(一个也可以,正向测序的fq)
test1_1.fq
test2_1.fq

# input2.txt 文件格式(一个也可以,反向测序的fq)
test1_2.fq
test2_2.fq

2.2 SInC_simulate 模拟SNV,INDEL,CNV变异

这里仿真变异的三种类型是互相独立的,当其中一个的概率设置为0的时候,不会进行变异。

./SInC_simulate -S 0.002 -I 0.0001 -p 2 -l 1000 -u 150000 -t 2 chr21.fa
# -S 表示SNP发生变异的频率
# -I 表示Indel发生变异的频率
# -p 表示CNV发生变异的频率
# -l CNV变异的最短序列长度
# -u CNV变异的最长序列长度
# -t SNP变异中,转换:颠换的比例
# 最后是参考基因组fa文件

2.3 SInC_readGen 生成读段

把第二步模拟的fa文件,通过测序仪仿真生成fastq文件(默认是双端测序),这里还需要用到第一步生成的质量分数配置文件

./SInC_readGen -C 5 -T 1 -R 100 chr22_allele_1.fa 100_bp_read1_profile.txt 100_bp_read2_profile.txt
./SInC_readGen -C 5 -T 1 -R 100 chr22_allele_2.fa 100_bp_read1_profile.txt 100_bp_read2_profile.txt
# -C 表示测序深度
# -T 表示cpu核心数
# -R 表示每条read的长度
# chr22_allele_1.fa 第二步模拟的fa文件
# 100_bp_read1_profile.txt 第一步模拟的正向测序的质量分数配置文件
# 100_bp_read2_profile.txt 第一步模拟的反向测序的质量分数配置文件

2.5 官方readme

SInC has 3 steps:

Step 1: Quality profile generation // 质量配置文件生成
Run  "./genProfile" to generate quality profile from your desired input file. //从你的期望的输入文件中生成quality profile

Usage:
 ./genProfile -R <read tag(1 for R1, 2 for R2)> -l <read length> <input.txt>

Example:
./genProfile -R 1 -l 100 input.txt // 输入文本为fastq文件列表

-> -R 1   means profile for R1.(Similarly run with -R 2 for R2)
-> -l 100   means read length 100
-> input.txt this file contains list of fastq files(1 file per line) to be used for profile generation. 

Step 2: Simulation of SNPs, INDELs, CNVs // 模拟SNPs, INDELs, CNVs等变异
Run "./SInC_simulate" to simulate SNPs, INDELs, CNVs.

Usage:
 ./SInC_simulate [options] <in.ref.fa>

Example:
./SInC_simulate -S 0.002 -I 0.0001 -p 2 -l 1000 -u 150000 -t 2 chr21.fa

-> -S 0.002  means 0.002% of SNPs to be incorporated(合并) in the reference // 1000个碱基包含两个snp
-> -I 0.0001 means 0.0001% of INDELs to be incorporated in the reference
-> -p 2   means 2% of CNVs to be incorporated in the reference
-> -l 1000  means minimum size of CNV should be 1000
-> -u 150000 means maximum size of CNV should be 150000
-> -t 2   means ti/tv should be 2 // 

NOTE:
1. SInC will generate fasta file for both the alleles, so run read generator on both the files separately.
//1. SInC 将为两个等位基因生成 fasta 文件,因此分别对这两个文件运行读取生成器。
2. Minimum evolutionary SNP rate is set to 0.0033.
//2.最小进化 SNP 率设置为 0.0033。

Step 3: Read generation
Run "./SInC_readGen" for both the fasta files generated in Step 2.
Usage:
 ./SInC_readGen [options] <in.ref.fa> <read_1_profile.txt> <read_2_prof.txt>

Example: desired coverage 10
./SInC_readGen -C 5 -T 1 -R 100 chr22_allele_1.fa 100_bp_read1_profile.txt 100_bp_read2_profile.txt
./SInC_readGen -C 5 -T 1 -R 100 chr22_allele_2.fa 100_bp_read1_profile.txt 100_bp_read2_profile.txt

-> -C 5  means fold coverage for chr22_allele_1.fa is 5
-> -T 1  means use 1 core
-> -R 100 means read length 100

3. 报错

该软件运行在linux环境下,需要gsl
如果运行过程中报如下错误,参考我的另一篇文章:关于部分软件运行报错,找不到libgsl.so.0的解决方案

error while loading shared libraries: libgsl.so.0: cannot open shared object file: No such file or directory

以上是关于生物信息学仿真软件SInC的初步使用教程的主要内容,如果未能解决你的问题,请参考以下文章

生物信息学仿真软件SInC的初步使用教程

Java生物信息- 判断碱基有没有连续的重复序列

生物信息学常见数据格式

如何用Python写生物信息学软件

【Linux】生物信息软件安装过程

常用生物信息学在线分析工具汇总(记录中...)