在 cloudflare 上下载/镜像网站以进行存档
Posted
技术标签:
【中文标题】在 cloudflare 上下载/镜像网站以进行存档【英文标题】:download/mirror a website on cloudflare for archiving 【发布时间】:2021-03-23 10:18:09 【问题描述】:出于存档目的尝试备份(下载/镜像)网站。该站点显然位于 Cloudflare 上。我常用的工具是wget
,但它在我身上失败了(即使使用cookie cfduid 标头)。不工作的wget
命令示例:
wget -U "Mozilla/5.0 (X11; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0" --header="Accept: text/html" --header="Cookie: __cfduid=someverylongcfduid" - -mirror --convert-links --adjust-extension --page-requisites --no-parent -w 1m www.domain.tld
所以我想我会回到我可信赖的朋友httrack
,但它也失败了(即使使用导出的 cookie)。不工作的httrack
命令示例:
httrack -F "Mozilla/5.0 (X11; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0" --mirror -b1 -s0 -%c1 -c1 --referer "https://www.domain .tld/" "https://www.domain.tld/"
我不想破坏网站,所以限制连接和等待是完全可以的。我宁愿让它运行得更久/更慢,并在此过程中成为一个好的netizen。
目前我遇到了 301 (Moved permanently) 或 403 (Forbidden) 错误,我假设这是由于 Cloudflare。该网站大量使用 javascript :-( 有没有人有任何提示/建议/解决方案来存档这样的网站?
【问题讨论】:
【参考方案1】:我认为你应该尝试使用 selenium。
【讨论】:
欢迎来到 Stack Overflow!我看不出这如何回答本页顶部的问题,但应该如此。请edit根据How to Answer或删除答案。否则,它可能会被标记为“不是答案”并被删除。以上是关于在 cloudflare 上下载/镜像网站以进行存档的主要内容,如果未能解决你的问题,请参考以下文章
我想从微软MSDN上下载Win7原版系统,但是我从百度搜索出2个网站,问下哪个网站才是微软的Win7原版系统镜像