perl语言快速入门的通道在这儿
Posted VG生信软件
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了perl语言快速入门的通道在这儿相关的知识,希望对你有一定的参考价值。
于从事生物信息行业的人来说,学习一门语言至关重要。对于海量数据的处理,常规的人工统计分析费时费力,因而利用程序自动化实现是快速而准确的方式。perl语言对于老司机来说基本都熟悉,是最早应用于生物信息学数据处理的常用语言之一。如果您的周围有perl大神,不妨还是学习一下。如果您急切的想速成,小编还是极力推荐bioperl的。
什么是bioperl呢?Bioperl是一个令人瞩目的国际性的自由软件开发计划,存储了众多的生物信息学领域常用的数据处理模块。对加速了生物信息学、基因组学及其他生命科学研究的发展具有重要的意义。直白说,bioperl就是一个模块数据库,我们可以下载安装后直接调用。
什么是模块呢?
首先得讲Perl 的子程序。子程序是用户定义的函数。Perl 子程序即执行一个特殊任务的一段分离的代码,它可以使减少重复代码且使程序易读,仅适用于本程序。 语法格式如下:
sub subroutine{
statements;
}
写子程序的目的就是为了程序中可以方便的重复调用,从某种意义来说,子程序可以很方便的移植给别人使用。别人假设想要实现此功能(如下面的取反向互补序列例子),可直接拷贝此程序的代码,加到自己书写的程序里即可,避免再次书写(或者说我不会写此段代码,但我知道有这段子程序代码,可以方便的直接拿来用)。
下面列举了一个求反向互补序列的子程序:
sub reverse_complementary{
my ($inputseq)=@_;
my $sequence = reverse($inputseq);
$sequence =~tr/ACGTUNacgtun/TGCAANtgcaan/d;
####/d:表示把匹配上的字符全部替换;
return $sequence;
}
主程序:
$seq="TCGATGTCGATCNNNNatcgtagctagcddnn";
$reverse_seq=&reverse_complementary($seq);##调用
print “$reverse_seq\n”;
输出结果:
nnhhgctagctacgatNNNNGATCGACATCGA
说完子程序,是不是感觉很神奇,宝宝以后取反向互补序列就不用愁了,我只要知道有这个子程序就可,而不需要再深入了解perl的语法、规则,去重新搞这件事情,是不是加速入门了呢?
其实,此处是以子程序为例来引入模块的,因为bioperl上存在了众多好用的模块。模块其实与子程序没有太大的区别,只是模块单独位于一个以.pm结尾的文件中,我们需要安装,才能调用模块中相应的子程序。调用的方法采用use XXX; 其中XXX为模块名字,检测是否安装此模块,可以采用:perldoc 模块名字。
bioperl网址是:http://bioperl.org/,绿色的界面还是很符合生物的属性的。
其上面的模块主要分类如下:
•Features and Annotations - Reading and writing detailed data associated with sequences.
•BlastPlus - Create, manage, and query BLAST databases with NCBI blast+.
•EUtilities Cookbook - Simple script examples using Bio::DB::EUtilities. •SearchIO - Parsing reports from sequence comparison programs like BLAST.
•SeqIO - Sequence file input and output, with script examples.
•Getting Genomic Sequences - Some examples of how to retrieve genomic sequences.
•AlignIOand SimpleAlign - Create and analyze alignments using BioPerl.
•Writing BioPerl Tests - A general guide on how to write BioPerl tests using Test::More.
•OBDA Flat Databases - Indexing local sequence files for fast retrieval using OBDA. •Tiling - Use SearchIO to create robust alignments.
•Local Databases - Indexing local sequence files for fast retrieval.
•OBDA - Using OBDA, a universal and customizable sequence retrieval system.
•Restriction Enzyme Analysis - in silico restriction enzyme analysis.
•Short-read assemblies with BWA - Using the bwa assembler in BioPerl.
•Short-read assemblies with maq - Using the maq assembler in BioPerl.
•Trees - Using BioPerl to analyze phylogenetic trees. •EUtilities Web Service - Query NCBI Entrez via the EUtilities.
•PAML - Using the PAML package using BioPerl.
•PhyloXML - Read and write phyloXML documents using BioPerl.
•Bioperl Objects - The common and uncommon objects that represent sequence.
•Simple Web Analysis - Submitting sequence data to Web forms and retrieving results.
•Best Practices - The conventions to use when writing BioPerl code.
•Advanced BioPerl - Notes on developing BioPerl code.
•PopGen - Population genetics, molecular evolution, and BioPerl.
•SubmitPatch - The steps needed to get your modification to BioPerl into the code base.
•Nexml - A guide on how to read and write Nexml documents using BioPerl.
•Glyphs - Extend Bio::Graphics using custom glyphs. •BioGraphics - Creating beautiful graphics for sequence display and annotation.
•Using Git - Using Git with BioPerl.
•Submitting Issues - How we suggest submission of bugs and feature requests..
可以看,上面能处理的内容涵盖了生物信息学的方方面面。
下面小编举两个例子,调用bioperl的Bio::SeqIO模块。
A. FASTQ转FASTA程序,。红色部分都是固定写法。
use Bio::SeqIO;
my$in=Bio::SeqIO->new(-file=>"test.fastq",-format=>‘fastq');
my$out=Bio::SeqIO->new(-file=>“>output.fasta",-format=>'fasta');
while(my$seq=$in->next_seq()){
$out->write_seq($seq);
}
B. 求FASTA的序列长度
use Bio::SeqIO;
open (OUT, ">test.len")|| die;"cannot open test.len:$!";
my $ina = Bio::SeqIO->new(-file => "test.fa",-format => 'fasta');
while(my $obj = $ina->next_seq()){
my $id = $obj->id;
my $seq = $obj->seq;
my $seq_len=$obj->length;
print OUT “$id\t$seq_len\n”;
}
close OUT;
各位,是不是感觉bioperl很好用呢?
长按二维码
以上是关于perl语言快速入门的通道在这儿的主要内容,如果未能解决你的问题,请参考以下文章