wget中的递归与外部目录

Posted

技术标签:

【中文标题】wget中的递归与外部目录【英文标题】:Recursion in wget with outside directories 【发布时间】:2020-12-03 19:55:12 【问题描述】:

我有一个链接列表。这些链接每个都有一小部分我正在尝试归档的文本文件。

我的列表位于 host/file/list.html

该列表有近一千个指向 /file/list.html?id=xxx 的链接

在 list.html?id 页面内,链接文件位于 /data/file/list/filename.txt ,文件名除文件类型外没有任何模式。

一路上都是我想忽略的页眉和页脚链接。如果我将我的包含目录设置为 /data/file/list 它不会抓取 /file/list.html?id=xxx 的任何页面

这是我到目前为止所得到的,但它不适用于递归 l=2,我必须在 id 页面本身上才能工作。

wget --recursive -l 2 --include-directories=/data/file/list http://host/file/list.html

这只会下载 list.html 并停止。如果我还包含 /file/list 它会下载太多其他文件,我只想下载尽可能少的文件。我意识到它必须读取每个 list.html?id 页面才能获取 txt 文件列表,但看起来它一次下载所有 id 页面而不通过链接。以防万一我的递归限制错误,我尝试了 l=3 但结果相同。

【问题讨论】:

【参考方案1】:

我最终使用了将 /file/list 添加到包含目录的代码,还添加了 -nc 以帮助防止多次下载相同的页眉、页脚链接。它似乎运行良好,主要是下载必要的文件。

【讨论】:

以上是关于wget中的递归与外部目录的主要内容,如果未能解决你的问题,请参考以下文章

使用wget命令爬取整站

Centos下wget下载整个网站,或者目录全部文件

下载mysql document

Oracle外部表

wget-文件下载工具

wget 下载整个网站,或者特定目录