弗雷塞斯 从生物学到生物信息学到机器学习 转录组入门:了解fastq测序数据
Posted BioMarkerInfo
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了弗雷塞斯 从生物学到生物信息学到机器学习 转录组入门:了解fastq测序数据相关的知识,希望对你有一定的参考价值。
sra文件转换为fastq格式
1
|
fastq-dump -h |
--split-3
也就是说如果SRA文件中只有一个文件,那么这个参数就会被忽略。如果原文件中有两个文件,那么它就会把成对的文件按*_1.fastq,*_2.fastq这样分开。如果还出现了第三个文件,就意味着这个文件本身是未成配对的部分。可能是当初提交的时候因为事先过滤过了一下,所以有一部分数据被删除了。
--gzip
输出文件压缩成gzip格式(通常gzip仅用来压缩单个文件。多个文件的压缩归档通常是首先将这些文件合并成一个tar文件,然后再使用gzip进行压缩,最后生成的.tar.gz或者.tgz文件就是所谓的“tar压缩包”或者“tarball”)
--bzip2
输出文件压缩成bzip2格式(bzip2比传统的gzip或者ZIP的压缩效率更高,但是它的压缩速度较慢)
1
|
ls *.sra| while read id ; do (fastq-dump -- split -3 $ id ); done |
我们的数据是Illumina的双端测序,所以用fastq-dump --split-3命令来把sra格式数据转换为fastq。
总共有7个测序数据,所以最好是同步改名,用-A参数,为了节省空间,用--gzip压缩。
1
2
|
perl -F ‘\t‘ -alne ‘if($F[7]=~/SRR/){$F[6]=~s/\s/_/g;$F[13]=~s/\s|#/_/g;$F[13]=~s/\(|\)//g;print "$F[7]\t$F[6]_$F[13]"}‘ SraRunTable.txt > Rename.txt perl -F ‘\t‘ -alne ‘print "fastq-dump --split-3 --gzip -A $F[1] $F[0].sra"‘ Rename.txt > sratofq.sh<br> bash sratofq.sh |
数据校验及备份存放
在此最开始之前应该做个md5sum数据传输完整性验证;或者拿到自己的数据后,压缩后生产MD5文件,然后备份保存
1
|
md5sum *.fastq.gz | tee md5sum.txt |
验证MD5值
1
|
md5sum -c md5sum.txt |
-c选项来对文件md5进行校验。校验时,根据已生成的md5来进行校验。生成当前文件的md5,并和之前已经生成的md5进行对比,如果一致,则返回OK,否则返回错误信息
质控FastQC
1
2
3
4
|
mkdir rna_seq /work && cd rna_seq /work ln .. /data/ * . # 建立软连接 mkdir 1_FastQC_Raw_Data ls *.gz| while read id ; do (fastqc $ id -o 1_FastQC_Raw_Data -t 3); done |
问题:
FastQC报告中哪些是值得关注的?
注意事项:
1、数据质控是一个综合的评价标准,其中主要指标为碱基质量与含量分布,如果这两个指标合格了,后面大部分指标都可以通过。如果这两项不合格,其余都会受到影响。
2、其中一些指标并不适合所有数据。要根据具体数据类型,具体分析。
以上是关于弗雷塞斯 从生物学到生物信息学到机器学习 转录组入门:了解fastq测序数据的主要内容,如果未能解决你的问题,请参考以下文章