使用wget构建Web图形

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用wget构建Web图形相关的知识,希望对你有一定的参考价值。

我正在使用带-r(递归)选项的wget来从根开始爬行和下载所有页面。

出于调试目的,我想输出哪个页面将我路由到另一个页面,例如:https://stackoverflow.com/ - > https://stackoverflow.com/questions

有这样的方法吗?

请注意,我需要明确使用wget。

答案

我发现的最佳解决方案现在是使用--warc-file选项,导出我的爬行的warc archive。此格式还存储Referer。

使用python library读取输出我编写了以下简单脚本,以导出带有源/目标列的csv:

import warc
f = warc.open("crawler.warc")
for record in f:
    if record['WARC-Type'] != 'request':
        continue
    for line in record.payload:
        if line.startswith("Referer:"):
            print line.replace("Referer: ", "").strip('

'), ",", record['WARC-Target-URI']

以上是关于使用wget构建Web图形的主要内容,如果未能解决你的问题,请参考以下文章

Android片段布局完成膨胀

c#代码片段快速构建代码

使用 NodeJS 和 JSDOM/jQuery 从代码片段构建 PHP 页面

在 Google Cloud 构建中的两个容器之间进行通信

使用底图作为Python GUI中的图形

高效Web开发的10个jQuery代码片段