gwas分析时数据格式转换

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了gwas分析时数据格式转换相关的知识,希望对你有一定的参考价值。

参考技术A 从vcf文件排序开始,可以使用picard,也可以使用vcftools 的vcf-sort

将vcf文件转化为plink识别的格式也是借助vcftools工具:
vcftools --vcf file.vcf --plink --out file_prefix

将 plink文件进行排序,而且还可以将bed二进制文件转化为ped格式
plink --bfile AA --recode --out BB

将ped\map文件转化为hmp格式的文件:
run_pipeline.pl -fork1 -plink -ped plink_sort.ped -map plink_sort.map -export test -exportType Hapmap -runfork1

参考:
GWAS分析中的格式转化vcf-ped-hmp
Tassel_Pipeline_Tutorial20160330.pdf
Tassel5PipelineCLI.pdf
Tassel学习笔记

GWAS文献基于GWAS与群体进化分析挖掘大豆相关基因

Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean
中文名:基于GWAS与群体进化分析挖掘大豆驯化及改良相关基因



发表期刊杂志:nature biotechnology
影响因子:41.514
发表时间:2015年2月
发表单位:中科院遗传与发育生物学研究所
 

一、      研究取材
62株野生大豆、130株地方种和110个驯化品种构建的一个自然群体

二、      方法流程
Illumina HiSeq 2000 测序平台,测序文库300bp,样本平均测序深度达到11X

三、      生物信息学分析
群体结构分析、选择清除分析、重要性状的全基因组关联分析

四、      研究结果
1)使用BWA软件将原始数据与参考基因组进行比对,使用samtools将sam格式转化为bam,使用picard软件去掉Duplicated reads。

2)SNP calling使用GATK和samtools,取两者结果的交集。对于GATK参数设置:-stand_call_conf 30。MAF设置为0.01。

3) Indel calling类似于SNP calling,使用GATK的UnifiedGenotyper程序,起参数设置为-glm INDEL,只考虑6bp范围内的缺失和插入。

4)SNP注释使用的软件为ANNOVAR。SNP被注释到内含子(overlap- ping with an intron)、外显子、基因间区,可变剪切位点(within 2 bp of a splicing junction)、5′UTRs 、3′UTRs,, upstream and downstream regions (within a 1 kb region upstream or downstream from the transcription start site).注释在外显子区域的SNP又分为同义和非同义突变。注释到外显子的Indel又分为移码突变和非移码突变。

5)群体结构分析中,PCA使用的是EIGENSOFT 4.2 的smartpca 程序,neighbor-joining tree 使用PHYLIP 3.68软件。结构分层使用FRAPPE,其中k值选取2到7.连锁不平衡分析使用plink软件。关联分析使用的GAPIT 分析软件。
技术分享




























以上是关于gwas分析时数据格式转换的主要内容,如果未能解决你的问题,请参考以下文章

TWAS数据处理

5. GWAS:群体结构——Admixture

GWAS 分析常用文件格式总结

GWAS之表型最优无偏预测(BLUP)与遗传力计算

ccf 目录格式转换

GWAS分析(R包GAPIT)之二(数据准备)