读取gff/gtf文件的内容
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了读取gff/gtf文件的内容相关的知识,希望对你有一定的参考价值。
题目和内容参考jimmy大神的http://www.biotrainee.com/thread-626-1-1.html
gff文件来自gencode的genode.v26.annotation.gft.gz
目的:熟悉gff文件内容,练习提取数据操作
1.统计每一条染色体的基因数目:
zcat gencode*|awk ‘$3=="gene"{print $1}‘|sort|uniq-c #$3是feature type,$1是reference sequence name。
2.统计每一条染色体的protein_coding 基因数目:
zcat gencode*|awk ‘$3=="gene"{print $0}‘|grep "protein_coding"|cut -f 1|sort|uniq -c
3.统计各个类型的基因
zcat gencode*|awk ‘$3=="gene"{print $0}‘|awk ‘match($0,/(gene_type).+(".+?");.*gene_name,a){print a[2]}‘|sort|uniq -c
以上是关于读取gff/gtf文件的内容的主要内容,如果未能解决你的问题,请参考以下文章
Ajax 片段元标记 - Googlebot 未读取页面内容