Python 编码转换与中文处理

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 编码转换与中文处理相关的知识,希望对你有一定的参考价值。

Python 编码转换与中文处理

python 中的 unicode是让人很困惑、比较难以理解的问题. utf-8是unicode的一种实现方式,unicode、gbk、gb2312是编码字符集.

decode是将普通字符串按照参数中的编码格式进行解析,然后生成对应的unicode对象


写python时遇到的中文编码问题:


?  /test sudo vim test.py

#!/usr/bin/python

#-*- coding:utf-8 -*-


def weather():

        import time

        import re

        import urllib2

        import itchat

        #模拟浏览器

        hearders = "User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"


        url = "https://tianqi.moji.com/weather/china/guangdong/shantou"    ##要爬去天气预报的网址

        par = '(<meta name="description" content=")(.*?)(">)'    ##正则匹配,匹配出网页内要的内容


        ##创建opener对象并设置为全局对象

        opener = urllib2.build_opener()

        opener.addheaders = [hearders]

        urllib2.install_opener(opener)


        ##获取网页

        html = urllib2.urlopen(url).read().decode("utf-8")


        ##提取需要爬取的内容

        data = re.search(par,html).group(2)

        print type(data)

        data.encode('gb2312')

        b = '天气预报'

        print type(b)

        c = b + '\n' + data

        print c

weather()



?  /test sudo python test.py

<type 'unicode'>

<type 'str'>

Traceback (most recent call last):

  File "test.py", line 30, in <module>

    weather()

  File "test.py", line 28, in weather

    c = b + '\n' + data

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)



解决方法:

?  /test sudo vim test.py

#!/usr/bin/python

#-*- coding:utf-8 -*-

import sys

reload(sys)

# Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法,我们需要重新载入

sys.setdefaultencoding('utf-8')


def weather():

        import time

        import re

        import urllib2

        import itchat

        #模拟浏览器

        hearders = "User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"


        url = "https://tianqi.moji.com/weather/china/guangdong/shantou"    ##要爬去天气预报的网址

        par = '(<meta name="description" content=")(.*?)(">)'    ##正则匹配,匹配出网页内要的内容


        ##创建opener对象并设置为全局对象

        opener = urllib2.build_opener()

        opener.addheaders = [hearders]

        urllib2.install_opener(opener)


        ##获取网页

        html = urllib2.urlopen(url).read().decode("utf-8")


        ##提取需要爬取的内容

        data = re.search(par,html).group(2)

        print type(data)

        data.encode('gb2312')

        b = '天气预报'

        print type(b)

        c = b + '\n' + data

        print c

weather()


测试后:

?  /test sudo python test.py

<type 'unicode'>

<type 'str'>

天气预报

汕头市今天实况:20度 多云,湿度:57%,东风:2级。白天:20度,多云。 夜间:晴,13度,天气偏凉了,墨迹天气建议您穿上厚些的外套或是保暖的羊毛衫,年老体弱者可以选择保暖的摇粒绒外套。




以上是关于Python 编码转换与中文处理的主要内容,如果未能解决你的问题,请参考以下文章

怎样将unicode编码转换为中文

Python3中字符串的编码与解码以及编码之间转换(decodeencode)

python基础——编码、bytes与str转换及格式化

〖Python〗-- 编码转换

python中字符串编码转换

day03-字符编码与转换