下载网页和依赖项,包括 CSS 图像 [关闭]

Posted

技术标签:

【中文标题】下载网页和依赖项,包括 CSS 图像 [关闭]【英文标题】:download webpage and dependencies, including css images [closed] 【发布时间】:2010-12-07 13:58:38 【问题描述】:

我经常需要下载一个网页,然后离线编辑它。 我尝试了一些工具,它们缺少的主要功能是下载 CSS 文件中引用的图像。

是否有工具(适用于 Linux)可以下载所有内容,以便网页离线呈现相同的内容(不包括 AJAX)?

【问题讨论】:

这对我来说效果最好:::::::::::: wget --no-clobber --page-requisites --html-extension --convert-links --restrict -file-names=windows --no-parent example.com --html-extension 自 v1.12 起已弃用。我推荐这个:wget -U "Opera 11.0" --page-requisites --content-on-error --no-clobber --convert-links --restrict-file-names=windows --no-parent "http://***.com" url 用双引号括起来很重要,否则会卡在Redirecting output to ‘wget-log’. 上。 相关:superuser.com/questions/55040/… 【参考方案1】:
wget --page-requisites http://example.com/your/page.html

This option 使 Wget 下载正确显示给定 html 页面所需的所有文件。这包括内联图像、声音和引用的样式表等内容。

编辑:meder 是对的:stock wget 不解析和下载 css 图像。然而,有一个补丁增加了这个功能:[1, 2]

更新:上面提到的补丁has been merged into wget 1.12,于 2009 年 9 月 22 日发布:

** Added support for CSS. This includes:
 - Parsing links from CSS files, and from CSS content found in HTML
   style tags and attributes.
 - Supporting conversion of links found within CSS content, when
   --convert-links is specified.
 - Ensuring that CSS files end in the ".css" filename extension,
   when --convert-links is specified.

【讨论】:

据我所知,这不会下载 CSS 文件中引用的图像,这是 OP 的意图。我认为您必须编写一个解析 css 文件的脚本,或者找到一个人制作的脚本,不过我对此也很好奇。 你应该递归下载整个目录图像 似乎从 07 年就开始打补丁了,还没有集成... 看来 wget 1.13.4 仍然无法找到使用 @import 语法链接的 CSS 文件。 @Shayan No - curl 无法下载整个网页,因为它无法解析 HTML:ec.haxx.se/usingcurl-downloads.html#client-differences【参考方案2】:

可以通过 Firefox 来实现,请参阅此表单

    右键单击 查看页面信息 选择媒体标签 突出显示所有文件 另存为

参考 - http://www.webdeveloper.com/forum/showthread.php?t=212610

【讨论】:

这对保存 css 或 js 文件没有帮助 没有得到由 Op. 指定的 CSS。这是一个很酷的技巧/过程。自己不会想到的。感谢发帖。 它对我有用,保存了所有通过 css 使用的 PNG,非常感谢。 它会下载 CSS 文件中引用的图像。因此,如果仅涉及图像和其他媒体,则可以这样做。 这对我来说效果很好,并且不需要我使用任何新工具。【参考方案3】:

前几天我为客户工作时遇到了同样的问题。另一个运行良好的工具是HTTrack。该软件可用于 Windows 和 Linux 的命令行版本。对于 Linux,他们为大多数更常见的操作系统预构建了软件包 here

就我的目的而言,它比 wget 更有效,因为它添加了一些修复 html 文件中链接的功能/开关。

【讨论】:

这个任务你使用什么语法? 相当完整的文档在这里link我不记得我使用的确切设置,但我尝试了几种不同的组合来提取我需要的内容。 @EveretteMills 我要找的东西,谢谢【参考方案4】:

wget 是您的绝佳选择。只是为了了解更多信息,此时windows上的wget版本在gnu上没有正式发布wget 1.12版本。当前版本是 1.11

wget 1.11 版无法下载 css 文件中的图像/字体。幸运的是,您可以从此页面找到 1.14 的构建。它解决了这些问题。

http://opensourcepack.blogspot.com/2010/05/wget-112-for-windows.html

【讨论】:

+1 让我们知道没有 Windows 版本1.12【参考方案5】:

当前版本的 Opera (12) 允许将页面保存为“带有图像的 HTML”。

因此,Opera 还下载 CSS 文件中引用的图像,并相应地调整 CSS 中的图像 URL。

【讨论】:

在其他选项失败的情况下完美运行。 @Marco 我是否像往常一样使用“右键单击 -> 另存为...”选项? 用 Chrome 和 Opera 保存有很大区别,我保存的网页的 Chrome html 文件和文件夹大约是 2MB,而 Opera 大约是 3MB。【参考方案6】:

在 Firefox 中:

文件->另存为->网页,完成

保存所有 javascript、图像和 css。不需要其他任何东西:)

【讨论】:

很遗憾,此方法不会下载 CSS 文件中引用的图像(在当前最新的 FF 21 及更低版本中)。【参考方案7】:
wget 

【讨论】:

以上是关于下载网页和依赖项,包括 CSS 图像 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

下载网页的工作本地副本[关闭]

xml RESTEasy Web应用程序的示例maven构建文件,包括下载依赖项。

渐进式下载[关闭]

下载网页的最快 C# 代码

本地下载后网页中断

如何使用 Python 脚本下载完整的网页?