Perl提取网页内容并保存----大牛博客

Posted 潇湘蘑菇

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Perl提取网页内容并保存----大牛博客相关的知识,希望对你有一定的参考价值。





 

上周参加了为期三天的ISARE2017会议,真是刘姥姥进大观园——眼花缭乱。看别人炫技不要太刺激,搞的我几天没睡好觉。话不多说,钢铁侠“小罗伯特-唐尼”和《消失的微生物》作者Martin J. Blaser镇楼(别再吐槽我的手机了,它是无辜的,我发现拍照真的和手机无关)。

 

Perl提取网页内容并保存----大牛博客



话说参会除了被刺激以外,也长了很多见识,团队和个人的成功都是有道理的,想要做好科研,除了天分,更多的是后天的努力、正确的方法与坚持不懈(请干了这杯鸡汤)。感谢毛老师提供的机会,严格来说,其实我还没有入职。鼓起勇气加了一位大牛的微信,问及他对新手学习perl的建议时,又一次被“劝退”改学python。然鹅,我说过我不是一个容易放弃的人,所以还是问了学习路线。不听老人言,吃亏在后面咯。

 


能否通过列表文件直接获取网页内容?当然可以。仍然是要借助LWP::Simple模块。代码很简单,如下:

#!/usr/bin/perl -w

use LWP::Simple;

use utf8;

use Encode;

my $blog_content;

open in,"<./fanyucai_blog.txt";

while (<in>) {

       if($_=~ s/(.+?) +?(http.+?html)//xs){

              openout, ">./$1.html";

              $blog_content= get("$2");

 $blog_content = encode('utf8',$blog_content);

print out $blog_content;

close out;

}}

close in;

 

存为perl脚本,运行后,就会在当前目录生成三百多篇樊老师博文的“博文名.html”文件,以后就可以很方便看了。想转成pdf的可以自己试着寻找代码转一下。贴一张效果图:

P.S. 其实我刚开始打算学生信的时候,最先关注的是python,因为大家都说好嘛,而且可读性很强,接近自然语言。但是我为什么中道失节,选了学习可读性极差的perl呢?我并不是吃饱了没事干。perl设计之初就是用于文本处理,而生信分析很多时候就是和文本(序列信息)打交道。我简直太喜欢perl强大的正则表达式功能了。虽然我现在还很弱鸡,但是总是要有梦想的嘛?那句话怎么说来着,“九层之台,起于垒土。千里之行,始于足下。”

以上是关于Perl提取网页内容并保存----大牛博客的主要内容,如果未能解决你的问题,请参考以下文章

在网页上运行 perl 脚本后保存文件

VC CWebBrowser2 获取网页文本内容,该怎么解决

PHP将网页内容转换为纯文本文件并保存为TXT

用Perl抓取网页和提交表格

打开时保存的网页不显示任何内容

怎么把这个表格的内容提取到网页上面?