解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题

Posted 三度

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题相关的知识,希望对你有一定的参考价值。

注意:此方法跟之前保存成json文件的写法有少许不同之处,注意区分

情境再现:

使用scrapy抓取中文网页,得到的数据类型是unicode,在控制台输出的话也是显示unicode,如下所示

{‘author‘: u‘u51afu53cbu5170u7b49‘,
 ‘classification‘: u‘ u4ebau6587u793eu79d1‘,
 ‘down_bd_code‘: u‘u63d0u53d6u5bc6u7801uff1asp6t‘,
 ‘down_bd_url‘: u‘https://pan.baidu.com/s/1N1NPVupmnPX6W5Fm2YHccg‘,
 ‘title‘: u‘u4e2du897fu65b9u54f2u5b66u53f2uff08u5957u88c5u51712u518cuff09‘}

 

保存成json文件时需要显示出中文

import json
import codecs

# Define your item pipelines here
#
# Don‘t forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html


class WriteJsonPipeline(object):
    def __init__(self):
        self.file = codecs.open(items.json, w, encoding=utf-8)

    def process_item(self, item, spider):
        line = json.dumps(dict(item),ensure_ascii=False) + 

        self.file.write(line)
        return item

    def spider_closed(self, spider):
        self.file.close()

将以上内容插入pipelines.py,同时在settings.py中加入

ITEM_PIPELINES = {
    ‘panda.pipelines.WriteJsonPipeline‘: 300
}

以调用pipelines文件











以上是关于解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题的主要内容,如果未能解决你的问题,请参考以下文章

4.python爬虫之新建 scrapy 爬虫项目(抓取和保存)

Python爬虫编程思想(150):使用Scrapy抓取数据,并将抓取到的数据保存为多种格式的文件

Python爬虫编程思想(150):使用Scrapy抓取数据,并将抓取到的数据保存为多种格式的文件

python3下scrapy爬虫(第二卷:初步抓取网页内容之直接抓取网页)

17.scrapy框架简例使用

json文件中文字改变但是网页却不变