wget整站抓取网站抓取功能

Posted 沧海一粟,何以久远

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了wget整站抓取网站抓取功能相关的知识,希望对你有一定的参考价值。

wget -r   -p -np -k -E  http://www.xxx.com 抓取整站

wget -l 1 -p -np -k       http://www.xxx.com 抓取第一级

 

-r 递归抓取
-k 抓取之后修正链接,适合本地浏览

 

http://blog.sina.com.cn/s/blog_669fb0c3010137bq.html

 

 

wget -m -e robots=off -k -E "http://www.abc.net/"
可以将全站下载以本地的当前工作目录,生成可访问、完整的镜像。


解释:

-m  //镜像,就是整站抓取
-e robots=off   //忽略robots协议,强制、流氓抓取
-k  //将绝对URL链接转换为本地相对URL
-E //将所有text/html文档以.html扩展名保存

 

https://futurestack.cn/cookbook/devops/wgetsite/

以上是关于wget整站抓取网站抓取功能的主要内容,如果未能解决你的问题,请参考以下文章

使用webpasser抓取某笑话网站整站内容

强大的扒站工具Teleport Ultra可整站下载可抓取到CSS背景图片

网站爬取-案例二:天猫爬取( 第一卷:首页数据抓取)

我可以使用 WGET 生成给定 URL 的网站的站点地图吗?

使用wget命令爬取整站

如何分析一个网站适不适合做的SEO优化