读取gff/gtf文件的内容

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了读取gff/gtf文件的内容相关的知识,希望对你有一定的参考价值。

题目和内容参考jimmy大神的http://www.biotrainee.com/thread-626-1-1.html

 

gff文件来自gencode的genode.v26.annotation.gft.gz

目的:熟悉gff文件内容,练习提取数据操作

 

1.统计每一条染色体的基因数目:

zcat gencode*|awk ‘$3=="gene"{print $1}‘|sort|uniq-c #$3是feature type,$1是reference sequence name。

2.统计每一条染色体的protein_coding 基因数目:

zcat gencode*|awk ‘$3=="gene"{print $0}‘|grep "protein_coding"|cut -f 1|sort|uniq -c

3.统计各个类型的基因

zcat gencode*|awk ‘$3=="gene"{print $0}‘|awk ‘match($0,/(gene_type).+(".+?");.*gene_name,a){print a[2]}‘|sort|uniq -c

  

 

以上是关于读取gff/gtf文件的内容的主要内容,如果未能解决你的问题,请参考以下文章

探索gff/gtf格式

从 Zip 文件中的文件中读取内容

Ajax 片段元标记 - Googlebot 未读取页面内容

solr分布式索引实战分片配置读取:工具类configUtil.java,读取配置代码片段,配置实例

请教一个问题,php如何读取mp3文件

从 XML 声明片段获取 XML 编码:部分内容解析不支持 XmlDeclaration