Web站点抓取工具webhttrack
Posted pandachen
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Web站点抓取工具webhttrack相关的知识,希望对你有一定的参考价值。
近来发现Ubuntu下一个很好用的web站点抓取工具webhttrack,能够将给定网址的站点抓取到本地的目录中,并实现离线浏览,很实用。
1、安装webhttrack
ubuntu 16.04的官方源中就有该工具。
$ sudo apt-get install webhttrack
2、启动webhttrack
$ webhttrack
该命令会启动浏览器,打开一个页面,引导用户一步一步配置要抓取站点相关的信息。如下图所示,将openstack官网上的安装指南站点全部抓取到本地一个目录中。
离线浏览抓取到本地目录下的web站点内容,和原站点一模一样,如下图所示。
以上是关于Web站点抓取工具webhttrack的主要内容,如果未能解决你的问题,请参考以下文章
经验总结21--抓取WEB数据,汇率,HtmlAgilityPack