Perl提取网页内容并保存----大牛博客
Posted 潇湘蘑菇
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Perl提取网页内容并保存----大牛博客相关的知识,希望对你有一定的参考价值。
上周参加了为期三天的ISARE2017会议,真是刘姥姥进大观园——眼花缭乱。看别人炫技不要太刺激,搞的我几天没睡好觉。话不多说,钢铁侠“小罗伯特-唐尼”和《消失的微生物》作者Martin J. Blaser镇楼(别再吐槽我的手机了,它是无辜的,我发现拍照真的和手机无关)。
话说参会除了被刺激以外,也长了很多见识,团队和个人的成功都是有道理的,想要做好科研,除了天分,更多的是后天的努力、正确的方法与坚持不懈(请干了这杯鸡汤)。感谢毛老师提供的机会,严格来说,其实我还没有入职。鼓起勇气加了一位大牛的微信,问及他对新手学习perl的建议时,又一次被“劝退”改学python。然鹅,我说过我不是一个容易放弃的人,所以还是问了学习路线。不听老人言,吃亏在后面咯。
能否通过列表文件直接获取网页内容?当然可以。仍然是要借助LWP::Simple模块。代码很简单,如下:
#!/usr/bin/perl -w
use LWP::Simple;
use utf8;
use Encode;
my $blog_content;
open in,"<./fanyucai_blog.txt";
while (<in>) {
if($_=~ s/(.+?) +?(http.+?html)//xs){
openout, ">./$1.html";
$blog_content= get("$2");
$blog_content = encode('utf8',$blog_content);
print out $blog_content;
close out;
}}
close in;
存为perl脚本,运行后,就会在当前目录生成三百多篇樊老师博文的“博文名.html”文件,以后就可以很方便看了。想转成pdf的可以自己试着寻找代码转一下。贴一张效果图:
P.S. 其实我刚开始打算学生信的时候,最先关注的是python,因为大家都说好嘛,而且可读性很强,接近自然语言。但是我为什么中道失节,选了学习可读性极差的perl呢?我并不是吃饱了没事干。perl设计之初就是用于文本处理,而生信分析很多时候就是和文本(序列信息)打交道。我简直太喜欢perl强大的正则表达式功能了。虽然我现在还很弱鸡,但是总是要有梦想的嘛?那句话怎么说来着,“九层之台,起于垒土。千里之行,始于足下。”
以上是关于Perl提取网页内容并保存----大牛博客的主要内容,如果未能解决你的问题,请参考以下文章