如何从网络浏览器保存所有原始文件?
Posted
技术标签:
【中文标题】如何从网络浏览器保存所有原始文件?【英文标题】:How to save all raw files from a web browser? 【发布时间】:2020-09-06 01:31:01 【问题描述】:当我访问它们时,如何将从网站加载的所有页面源(包括图像、js 文件和任何 webstream)保存到某个本地文件夹?
所以我需要能够正常使用浏览器,但之后能够一一检查源文件。
我曾经使用带有特殊插件的“Fiddler”,但最近,有些网站在启用它的情况下根本无法工作。 我的猜测,可能是因为它添加了虚假的 HTTPS,并且 webapps 现在直接验证 HTTPS 证书,或者是因为“webstreams”。
那么是否有提供类似行为的代理,或者在浏览器本身内提供类似行为的方法。
【问题讨论】:
【参考方案1】:我找到的最好的是this.
检查网站上的元素 (F12),您可以在其中看到所有选项卡(即控制台、来源、网络等),然后单击新添加的选项卡 ResourcesSaver
。您可以根据自己的喜好编辑一些配置,然后只需单击您所在网页上的Save All Resources
按钮即可。它还保留了所有文件的目录,保持层次结构完整。希望这将与您之前的一样有效。
【讨论】:
不确定这是否适用于所有内容,我希望能够正常浏览该网站,从一页转到另一页,并自动保存所有内容。【参考方案2】:在您要保存的网站上点击Ctrl + S
将保存您所在的当前页面。当您稍后看到保存文件的目录时,您会发现另一个文件夹说(您保存文件的名称)文件。在这里,您将找到该网站的所有数据。我希望这会有所帮助。
【讨论】:
【参考方案3】:使用程序like WebSiteSniffer 自动将您访问的所有网站和文件保存到您的计算机上。它可以保存 html、CSS、XML、图像、Flash 等
【讨论】:
【参考方案4】:我有机会使用的最佳工具是python scrapy。
它拥有所有刮板中最好的,并且非常易于使用。
【讨论】:
【参考方案5】:您可以从浏览器中导出您的历史记录并使用一些可以进行抓取的外部工具
即。 python scrapy(带编码) 或者 wget 没有编码的选项很少
【讨论】:
以上是关于如何从网络浏览器保存所有原始文件?的主要内容,如果未能解决你的问题,请参考以下文章