sh WGET爬网脚本
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了sh WGET爬网脚本相关的知识,希望对你有一定的参考价值。
#!/bin/sh
# wget --mirror --adjust-extension --page-requisites --execute robots=off --wait=30 --rand om-wait --convert-links --user-agent=Mozilla http://www.example.com
### V1
# wget \
# --recursive \
# --no-clobber \
# --page-requisites \
# --html-extension \
# --convert-links \
# --restrict-file-names=windows \
# --domains www.example.com \
# --no-parent \
# www.example.com
### V2
# wget \
# --recursive \
# --no-clobber \
# --page-requisites \
# --html-extension \
# --convert-links \
# --execute robots=off \
# --restrict-file-names=windows \
# --domains www.example.com \
# --no-parent \
# www.example.com
# wget \
# --user-agent='Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1 (KHTML, like Gecko) CriOS/52.0.2725.0 Mobile/13B143 Safari/601.1.46' \
# --execute robots=off \
# --recursive \
# --mirror \
# --wait=10 \
# --random-wait \
# www.example.com \
# 2>&1 | grep '^--' | awk '{ print $3 }' | grep -v '\.\(css\|js\|png\|gif\|jpg\|JPG\)$' > www.example.com.txt
# wget \
# --mirror \
# --recursive \
# --execute robots=off \
# --user-agent='Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1 (KHTML, like Gecko) CriOS/52.0.2725.0 Mobile/13B143 Safari/601.1.46' \
# --timestamping \
# --page-requisites \
# --html-extension \
# --restrict-file-names=windows \
# --wait=1 \
# --random-wait \
# --domains www.example.com \
# --debug \
# --output-file=sample.log \
# --progress=dot \
# --directory-prefix=sample \
# www.example.com
# wget \
# --mirror \
# --recursive \
# --execute robots=off \
# --user-agent='Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1 (KHTML, like Gecko) CriOS/52.0.2725.0 Mobile/13B143 Safari/601.1.46' \
# --timestamping \
# --page-requisites \
# --html-extension \
# --restrict-file-names=windows \
# --wait=1 \
# --random-wait \
# --domains www.example.com \
# --progress=bar \
# www.example.com
wget \
--mirror \
--recursive \
--execute robots=off \
--user-agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2725.0 Safari/537.36' \
--timestamping \
--page-requisites \
--html-extension \
--restrict-file-names=windows \
--random-wait \
--convert-links \
--domains www.example.com \
www.example.com
以上是关于sh WGET爬网脚本的主要内容,如果未能解决你的问题,请参考以下文章
Docker最全教程之Python爬网实战(二十一)
在Nutch中每个站点爬一定深度
SharePoint 2019 爬网错误:第一次尝试爬网此对象失败。 (无法从 URI 中检索 blob...)
从 bash 脚本对文件中的 wget 命令运行 exec 会忽略 wget 选项
shell脚本编写ftp下载文件
SharePoint 2013 手动删除爬网项目