Ubuntu下Python无法识别中文

Posted 朋酱

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Ubuntu下Python无法识别中文相关的知识,希望对你有一定的参考价值。

 在NLP的相关任务中,应用python处理中文是很常见的。在这个过程中,由于编码方式的不一致,可能会出现以下两种错误:

  1)SyntaxError:  Non-ASCII character in file ‘文件名’

  2)UnicodeDecodeError: ‘ascii‘ codec can‘t decode

  解决方法是:更改Python的编码方式为utf8模式,分为单文档内的临时更改,以及全局更改两种方式

  1.单文档内临时更改:在文档的开始处第一行(前面无任何内容),加入一行代码:      # coding: utf8

    或者在文档内添加以下代码,不要求在第一行,但也一般在文档开始的部分,添加代码:      import sys      reload(sys)      sys.setdefaultencoding(‘utf8‘)

  2.全局更改在/usr/lib/python2.7目录下的sitecustomize.py文件内加入上述代码          # coding: utf8      import sys      reload(sys)      sys.setdefaultencoding(‘utf8‘)最后,中文标点的处理需要格外注意(可以按下面形式处理):        endSign="!。" endSign=endSign.decode(‘utf-8‘)这两行代码,第一行是列举的中文标点,第二行是编码为utf8,第二行不能遗漏,否则可能出现上面第二个UnicodeDecodeError:错误

以上是关于Ubuntu下Python无法识别中文的主要内容,如果未能解决你的问题,请参考以下文章

Pyspark 命令无法识别(Ubuntu)

Ubuntu下Android Studio连接手机无法识别

Ubuntu下Android Studio连接手机无法识别

ubuntu中eclipse无法识别android手机问题

关于Ubuntu16.04下无法识别Intel WIFI6 AX201无线网卡的解决方案

Ruby 1.9.1 在 Ubuntu 上无法识别