网页图片怎么批量下载

Posted 2023-04-19

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了网页图片怎么批量下载相关的知识，希望对你有一定的参考价值。

如果是一个网页的图片，那么下载一个图片批量的工具就OK了，可关键是如果多个网页（一张图片一个网页，比如说看漫画的时候，下载20多页的漫画图片就要打开20多个网页，好麻烦）怎么办，望解答

你好，很高兴为你解答。
批量下载图片这是所有朋友都会遇到的一个问题，这里和大家分享两个常用的小技巧。
1、使用浏览器插件，在浏览器应用里搜索图片下载，会出现很多批量下载的插件，选择个星级较高的插件安装，然后就可以批量下载了。
2、这里需要你懂一点代码，你首先需要分析网页上的图片地址变化规律，比如baidu.com/1.jpg
baidu.com/2.jpg
.....
baidu.com/20.jpg 这样域名不变，后边的图片地址以数字递增方式在改变，那么你可以将这20多个图片地址保存下来，然后打开迅雷，有个批量下载，将保存的图片批量导入下载即可。
码字不易，希望能帮到题主。参考技术A 推荐你去试试官方版的（载图助手）可以批量下载的一次性全部都下载了，原图的尺寸又不会吧，还能自动分类保存参考技术B 试试电商图片助手，就是批量采集网页图片的。参考技术C 推荐你去下载一个，下图高手高级版，这个软件真的很好用可以一键抓图，自动生成文档分类，你可以去试试哦参考技术D 用载图助手是可以一次性全部都下载了啊，操作简单，原图的尺寸还不会变

实验：用Unity抓取指定url网页中的所有图片并下载保存

突发奇想，觉得有时保存网页上的资源非常麻烦，有没有办法输入一个网址就批量抓取对应资源的办法呢。

需要思考的问题：

1.如何得到网页url的html源码呢？

2.如何在浩瀚如海的html中匹配出需要的资源地址呢？

3.如何按照得到的资源地址集合批量下载资源呢？

4.下载的资源一般为文件流，如何生成指定的资源类型并保存呢？

需要掌握的知识：

1.网络爬虫的基础知识，发送Http请求的方法

2.C# 正则表达式运用，主要是识别html中需要的rul网址

3.UnityWebRequest类文件流下载

4.C# File类和Stream类等基础文件操作

下面分项来进行实现：

关于爬虫这里就不进行介绍了，网上其他的地方有很多资料，简而言之就是采集网页信息和数据的程序。

第一步，就是要发送一个Web请求，也可以说是Http请求。

这跟你打开浏览器输入一个url地址然后回车产生的效果基本是类似的，网页上之所以能显示出正确的信息和数据，是因为每一个网页有对应的html源码，像很多浏览器例如谷歌浏览器都是支持查看网页源码的功能，例如下面是我经常去的喵窝的主页的html的<head>部分：

技术图片

html源码中可以查看到网页当前的很多隐藏信息和数据，其中还有大量的资源链接和样式表等。值得注意的是，html源码只有在网页全部加载完成之后很可以显示和查看，这意味着一个url地址的Web请求响应成功；有成功的情况当然就会有各种各样失败的情况，例如我们经常输入一个rul地址后出现404的提示，这种就是一个Http请求出现错误的情况，404表示服务器未找到请求的网页。其他的错误类型还有很多。为什么要了解这一点呢，因为之后在发送Http请求时要想办法对错误进行处理或跳过执行下一任务。

我们可以有很多方式来发送Http请求，Unity也更新了Web请求的方式：（以后代码我就直接截图了，这个插入代码功能都不能自动排整齐真的难受）

技术图片

主要用到的类就是UnityWebRequest，和Unity中以前的类WWW有些类似，主要用于文件的下载与上传。

要引入以下命名空间：

技术图片

UnityAction作为参数主要是用于请求结束后可以自动返回一个html源码。它本质上就是个泛型委托：

技术图片

泛型的参数可以从没有到多个，是一个非常好用的类（尤其是在协程的回调中，可以很方便的延时参数传递）

当然了，除了Unity内置的发送Web请求的方法，C#也封装了好几个类，你可以随便挑一个使用，例如 HttpWebRequest，WebClient，HttpClient等：

比如这样：

技术图片

如果成功通过Web请求得到了指定url地址的html源码，那就可以执行下一步了。

第二步，收集html中所需要的数据信息，本例中就是要从这些源码中找出图片的链接地址。

例如可能会有下面这几种情况：

技术图片

总结一下，首先利用html的常用标签<img>来找可以找到大部分的图片，但还是有部分图片并不在这些标签之内。而且有时候，即使是在<img>标签之内的图片地址，还是有可能出现内链或是外链的区别，外链的话直接作为合法的url地址执行即可，但如果是内链的话就还要补全域名地址，所以我们还需要想办法识别一个url的正确域名。

关于如何识别匹配以上所说的字符串内容，目前最有效的方法就是正则表达式，下面就列举在本例中需要使用到的正则表达式：

1.匹配url域名地址：

private const string URLRealmCheck = @"(http|https)://(www.)?(w+(.)?)+";

2.匹配url地址：

private const string URLStringCheck = @"((http|https)://)(([a-zA-Z0-9._-]+.[a-zA-Z]{2,6})|([0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}))(:[0-9]{1,4})*(/[a-zA-Z0-9&%_./-~-]*)?";

3.匹配html中<img>标签内的url地址：（不区分大小写，其中分组<imgUrl>中为所需的url地址）

private const string imgLableCheck = @"<img[^<>]*?src[s ]*=[s ]*[""‘]?[s ]*(?<imgUrl>[^s ""‘<>]*)[^<>]*?/?[s ]*>";

4.匹配html中<a>标签内href属性的url地址：（不区分大小写，主要用于深度检索，其中分组<url>中为所需的url地址）

private const string hrefLinkCheck = @"(?i)<as[^>]*?href=([‘""]?)(?!javascript|__doPostBack)(?<url>[^‘""s*#<>]+)[^>]*>";

5.指定图片类型的匹配：（主要用于外链）

private const string jpg = @".jpg";
private const string png = @".png";

关于正则表达式的具体匹配用法，网上也有很多教程，这里就不说了。

给定一个html源码，这里从两个方向进行图片的匹配，先匹配外链，这里指定了匹配的文件类型：

技术图片