⚡离谱!!!自定义分辨率图片爬虫你可见过???(文末有投票)
Posted Code皮皮虾
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了⚡离谱!!!自定义分辨率图片爬虫你可见过???(文末有投票)相关的知识,希望对你有一定的参考价值。
✨前言
本次博主以爬取电脑壁纸为例,大家仔细看过这篇博文后,都能够照着套出来,爬取自己想爬取的壁纸。
纵览整篇文章,可能有的小伙伴看完后会觉得简单,但是我想告诉各位的是,爬虫之路需一步一脚印,通过爬取各种网站,来达到锻炼思路的目的,如果之后有想要进军JS解密等高阶爬虫的小伙伴,一定要有灵活的思路,我的话到此结束,接下来进行爬虫讲解!!!
🌝一、网页分析
进入ZOL壁纸网站
点击电脑壁纸
滑动到底部,可见有多页,那么有需求的小伙伴可以进行多页爬取
点击不同页,查看浏览器地址栏URL,即可得到规律,需要进行多页爬取的拼接URL即可
本文重点:自定义分辨率爬取
随便点一个进去,展示如下页面
可以发现,下面有一行分辨率可选择查看,那我们先点击,1920×1080
下图为:1920×1080
图片保存下来一看,也确实是1920×1080
那么,如何做到自定义分辨率呢???
关键就在于浏览器地址栏的URL
很明显,URL中带有我们需要的分辨率1920×1080
https://desk.zol.com.cn/showpic/1920x1080_117173_34.html
下面我们点击 600x900
和 2880x1800
的图片
# 1600x900 图片的URL
https://desk.zol.com.cn/showpic/1600x900_117173_34.html
# 2880x1800 图片的URL
https://desk.zol.com.cn/showpic/2880x1800_117173_34.html
但是这都是人家提供给我们的分辨率,那我们如果做到自定义呢???
这就是我说的,搞爬虫的思路一定要灵活,绝对不能死板,不然走不了多远的,一定要勇于尝试!!!
答案就是,我们可以在URL代替他给的分辨率,替换成我们自己想要的不就得了!😉
这是它给的
**这是我们自定义的 1000×1000
**
**保存下来也确实是 1000×1000
**
但这还没完呢!!!
URL中除了分辨率之外,还有什么117173和34什么的数字,这也是关键!
https://desk.zol.com.cn/showpic/1600x900_117173_34.html
**可见图片对应的标签中的href属性中有着我们熟悉的 117173
之类的数字,但是就上面的分析而言,34是怎么来的呢? **
**我们看他提供的分辨率按钮代码,可见我们需要的 117173_34
**
那可能有的小伙伴就说了,既然可以在这里获得我们需要的,那你还分析之前的干啥
我们点一下张图片可见,117173变成了117171,但是34还是一样的,那么经过我的测试可得出结论:后面的数字相当于一组图片的唯一id,是不会变的,变的是每个图片的id,那么我们对于唯一id只需要获取一次即可,之后图片的URL可经过拼接得到!
但是拼接后得到的URL虽能看到图片,但其实这是一个静态网页
**看到源码,下面 img
标签中的 src
属性才是图片真正的URL **
分析到此结束,具体看源码注释
细节问题
赋值打印的html到html文件中,发现
这是一个网页编码问题,确实是一个常见问题
查看网页编码
-
方式一
-
可见网页编码为GBK
-
方式二
虽然两种方式得到的编码不一样,但都能解决问题
所以我们爬取的时候要记得设置编码
✨成品展示
关注后,私信我获取源码,不然回复不了你
🔥投票
😘尾言
我是 Code皮皮虾,未来的日子里会不断更新出对大家有益的博文,期待大家的关注!!!
创作不易,如果这篇博文对各位有帮助,希望各位小伙伴可以点赞和关注我哦,感谢支持,我们下次再见~~~
分享大纲
更多精彩内容分享,请点击 Hello World (●’◡’●)
以上是关于⚡离谱!!!自定义分辨率图片爬虫你可见过???(文末有投票)的主要内容,如果未能解决你的问题,请参考以下文章
登录界面AutoUtils 屏幕适配自定义Edittext(显示密码可见和一键清空)和 TextInputLayout的使用。