爬取京东乱码问题

Posted ysl-manba

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬取京东乱码问题相关的知识,希望对你有一定的参考价值。

 

今天遇到的一个关于提取内容使用text或者是content:

text和content的区别:

resp.text返回的是Unicode型的数据。

resp.content返回的是bytes型也就是二进制的数据。

也就是说,如果你想取文本,可以通过r.text。

如果想取图片,文件,则可以通过r.content。

(resp.json()返回的是json格式数据)

当用response.text时是这样的:

技术图片

使用response.contentt时是这样的:

技术图片

以上是关于爬取京东乱码问题的主要内容,如果未能解决你的问题,请参考以下文章

网络爬虫在爬取网页时,响应头没有编码信息...如何解决保存在本地的乱码问题?

python3:爬取的内容包含中文,输出后乱码的问题

爬取网页时出现了中文编码乱码的问题的解决方案

爬虫之网页乱码解决方法(gb2312 -> utf-8)

Scrapy爬取到的中文数据乱码问题处理

python爬虫中文乱码解决方法