wget中的递归与外部目录
Posted
技术标签:
【中文标题】wget中的递归与外部目录【英文标题】:Recursion in wget with outside directories 【发布时间】:2020-12-03 19:55:12 【问题描述】:我有一个链接列表。这些链接每个都有一小部分我正在尝试归档的文本文件。
我的列表位于 host/file/list.html
该列表有近一千个指向 /file/list.html?id=xxx 的链接
在 list.html?id 页面内,链接文件位于 /data/file/list/filename.txt ,文件名除文件类型外没有任何模式。
一路上都是我想忽略的页眉和页脚链接。如果我将我的包含目录设置为 /data/file/list 它不会抓取 /file/list.html?id=xxx 的任何页面
这是我到目前为止所得到的,但它不适用于递归 l=2,我必须在 id 页面本身上才能工作。
wget --recursive -l 2 --include-directories=/data/file/list http://host/file/list.html
这只会下载 list.html 并停止。如果我还包含 /file/list 它会下载太多其他文件,我只想下载尽可能少的文件。我意识到它必须读取每个 list.html?id 页面才能获取 txt 文件列表,但看起来它一次下载所有 id 页面而不通过链接。以防万一我的递归限制错误,我尝试了 l=3 但结果相同。
【问题讨论】:
【参考方案1】:我最终使用了将 /file/list 添加到包含目录的代码,还添加了 -nc 以帮助防止多次下载相同的页眉、页脚链接。它似乎运行良好,主要是下载必要的文件。
【讨论】:
以上是关于wget中的递归与外部目录的主要内容,如果未能解决你的问题,请参考以下文章