python爬虫所遇问题列举

Posted 人生如梦,亦如幻

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫所遇问题列举相关的知识,希望对你有一定的参考价值。

1、通过python socket库来构造请求报文,向服务器发送图片请求时

  (1)图片在浏览器请求头中的remote address信息跟通过python socket输出远程连接地址和端口号不一致

    Remote Address:183.61.138.62:443

    raddr=(\'183.61.138.62\', 80)

    80表示http协议默认端口,443表示https协议默认端口

    

 

 

 

   2、在浏览器中输入图片地址,然后调试Network窗口发现,响应体不是直接返回image文件,而是文档文件

 

   3、及时正确返回包含图片二进制码的响应报文时,为了获得Content-Length(图片的大小),必须将响应行和响应头解码,但是解码在对图片二进制码进行解码时,

会报错:

    UnicodeDecodeError: \'utf-8\' codec can\'t decode byte 0xff in position 516: invalid start byte

    如何解决?

以上是关于python爬虫所遇问题列举的主要内容,如果未能解决你的问题,请参考以下文章

Python 入门网络爬虫之精华版

Python面试重点(爬虫篇)

Python爬虫——数据解析

Python爬虫实现的微信公众号文章下载器

Python爬虫从入门到放弃(十四)之 Scrapy框架中选择器的用法

python面试题----4