在 cloudflare 上下载/镜像网站以进行存档

Posted

技术标签:

【中文标题】在 cloudflare 上下载/镜像网站以进行存档【英文标题】:download/mirror a website on cloudflare for archiving 【发布时间】:2021-03-23 10:18:09 【问题描述】:

出于存档目的尝试备份(下载/镜像)网站。该站点显然位于 Cloudflare 上。我常用的工具是wget,但它在我身上失败了(即使使用cookie cfduid 标头)。不工作的wget 命令示例:

wget -U "Mozilla/5.0 (X11; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0" --header="Accept: text/html" --header="Cookie: __cfduid=someverylongcfduid" - -mirror --convert-links --adjust-extension --page-requisites --no-parent -w 1m www.domain.tld

所以我想我会回到我可信赖的朋友httrack,但它也失败了(即使使用导出的 cookie)。不工作的httrack 命令示例:

httrack -F "Mozilla/5.0 (X11; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0" --mirror -b1 -s0 -%c1 -c1 --referer "https://www.domain .tld/" "https://www.domain.tld/"

我不想破坏网站,所以限制连接和等待是完全可以的。我宁愿让它运行得更久/更慢,并在此过程中成为一个好的netizen。

目前我遇到了 301 (Moved permanently) 或 403 (Forbidden) 错误,我假设这是由于 Cloudflare。该网站大量使用 javascript :-( 有没有人有任何提示/建议/解决方案来存档这样的网站?

【问题讨论】:

【参考方案1】:

我认为你应该尝试使用 selenium。

【讨论】:

欢迎来到 Stack Overflow!我看不出这如何回答本页顶部的问题,但应该如此。请edit根据How to Answer或删除答案。否则,它可能会被标记为“不是答案”并被删除。

以上是关于在 cloudflare 上下载/镜像网站以进行存档的主要内容,如果未能解决你的问题,请参考以下文章

我想从微软MSDN上下载Win7原版系统,但是我从百度搜索出2个网站,问下哪个网站才是微软的Win7原版系统镜像

在电驴上下载的SONAR7如何安装

如何设置 virtualmin 以使用 cloudflare

android source code下载镜像

cloudflare - SSL错误

如何在CloudFlare下Nginx实现访客真实IP网站日志?