Web站点抓取工具webhttrack

Posted pandachen

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Web站点抓取工具webhttrack相关的知识,希望对你有一定的参考价值。

近来发现Ubuntu下一个很好用的web站点抓取工具webhttrack,能够将给定网址的站点抓取到本地的目录中,并实现离线浏览,很实用。

1、安装webhttrack

ubuntu 16.04的官方源中就有该工具。
$ sudo apt-get install webhttrack

2、启动webhttrack

$ webhttrack
该命令会启动浏览器,打开一个页面,引导用户一步一步配置要抓取站点相关的信息。如下图所示,将openstack官网上的安装指南站点全部抓取到本地一个目录中。
技术分享图片

离线浏览抓取到本地目录下的web站点内容,和原站点一模一样,如下图所示。
技术分享图片





以上是关于Web站点抓取工具webhttrack的主要内容,如果未能解决你的问题,请参考以下文章

web站点下robots.txt文件的书写与注意事项

红队工具推荐——OWASP ZAP

经验总结21--抓取WEB数据,汇率,HtmlAgilityPack

使用 Javascript 或 Web 表单的 Web 爬网站点

利用ASP.NET里自带的站点地图工具制作网站站点地图

Scrapy抓取所有站点地图链接