爬取动态网页中关于构造浏览器头的注意事项

Posted qian-lu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬取动态网页中关于构造浏览器头的注意事项相关的知识,希望对你有一定的参考价值。

在原来爬取动态网页图片中,获取到了图片的实际地址,但是下载下来的图片是损坏的,究其原因,是服务器端阻止了访问,但是观察发现

headers = {User-Agent: random.choice(UserAgent_List),
           Accept: "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
           Accept-Encoding: gzip,
           }

浏览器头已经构造好了。原因是什么?

实际上,动态网页是从原网页指向图片服务器的,所以在浏览器头中需要加上原来的地址,伪造出是从浏览器跳转的效果。

以上是关于爬取动态网页中关于构造浏览器头的注意事项的主要内容,如果未能解决你的问题,请参考以下文章

selenium官网是动态网页吗

网络爬虫之动态内容爬取

python爬虫怎么爬取webpack打包过页面的

常规动态网页爬取

Python爬取js动态添加的内容

怎么爬取网页的动态内容,很多都是js动态生