scrapy导出文件中文乱码问题

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy导出文件中文乱码问题相关的知识,希望对你有一定的参考价值。

背景:

使用scrapy crawl spidername -o filename.json命令执行爬虫,并将item写入文件,发现中文乱码,比如这样子:
技术图片

解决方法

第一种方法:

使用scrapy命令导出时指定编码格式

scrapy crawl baidu -o baidu_med.json -s FEED_EXPORT_ENCODING=utf-8

第二种方法:

借助Pipeline将item写入到文件
1.修改pipelines.py,添加:

import json
import codecs

class YiyaoPipeline(object):
    def __init__(self):
        self.file = codecs.open(‘item.json‘, ‘wb‘, encoding=‘utf-8‘)

    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + ‘
‘
        self.file.write(line)
        return item

2.修改settings.py,激活pipeline:

ITEM_PIPELINES = {
   ‘yiyao.pipelines.YiyaoPipeline‘: 300,
}

注意:settings.py默认有ITEM_PIPELINES配置,只是注销掉了。
3.使用scrapy命令导出时,直接执行:

scrapy crawl baidu 

以上是关于scrapy导出文件中文乱码问题的主要内容,如果未能解决你的问题,请参考以下文章

Scrapy 管道以正确的格式导出 csv 文件

arcgis属性表导出excel乱码

Scrapy爬取到的中文数据乱码问题处理

scrapy主动退出爬虫的代码片段(python3)

Scrapy -- 从脚本调用scrapy时,如何立即将字典返回给进程,而不是导出到json文件

你知道在 scrapy 中,可以定制化导出数据格式吗?scrapy 导出器学习