Hadoop中文编码乱码相关问题

Posted 诸葛小四

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop中文编码乱码相关问题相关的知识,希望对你有一定的参考价值。

mapreduce程序处理GBK编码数据并输出GBK编码数据, hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式,但是对于中文的输出window系统默认的是GBK,有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时,输出的结果为乱码,只能由UE或者记事本打开才能正常显示。因此将hadoop默认输出编码更改为GBK成为非常常见的需求,具体请参考以下这篇帖子http://www.aboutyun.com/thread-7358-1-1.html

以上是关于Hadoop中文编码乱码相关问题的主要内容,如果未能解决你的问题,请参考以下文章

spark 中文编码处理

解决burpsuite中文乱码的问题

Python中文乱码

CentOS7的中文乱码原因及编码设置

中文乱码——编码问题

解决Linux文档显示中文乱码问题以及编码转换