mysql不同字符集的转换过程

Posted 2021-03-01 云居

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了mysql不同字符集的转换过程相关的知识，希望对你有一定的参考价值。

一、概述及字符集

在工作中，有时我们会遇到更换数据库字符集的问题，那如何正确更换数据库的字符集呢？更换之后数据库的数据不会出现乱码，下面简单讲解一下数据库不同字符集的转换过程。

1、原有数据库的字符集由于前期规划不足，随着业务的发展不能满足业务的需求。如原来业务系统用的是utf8字符集，后期有存储表情符号的需求，uft8字符集就不能满足此时的业务需求了。需要用utf8mb4字符集。

2、数据库迁移，源和目标数据库的字符集不一致，此时就需要在迁移之前进行转换。

GBK是国家标准GB2312基础上扩容后兼容GB2312的标准。GBK的文字编码是用双字节来表示的，即不论中、英文字符均使用双字节来表示，为了区分中文，将其最高位都设定成1。GBK包含全部中文字符，是国家编码，通用性比UTF8差，不过UTF8占用的数据库比GBK大。支持简体中文及繁体中文。
utf8字符集：是一种UTF-8编码的Unicode字符集，每个字符占用1到3个字节。UTF-8包含全世界所有国家需要用到的字符，是国际编码，通用性强。
utf8mb4字符集：是一种UTF-8编码的Unicode字符集，每个字符占用1到4个字节。可以覆盖BMP范围内的字符和增补字符。BMP范围内的字符编码和utf8字符集中的编码是完全相同的，长度也是完全一样的，所以utf8mb4字符集可以兼容utf8字符集。
GB2312是GBK的子集，GBK是GB18030的子集。
big5支持繁体中文

以下模拟的是将latin1字符集的数据库修改成GBK的过程。其他字符集的转换过程类似。需要注意的是要转换的目标字符集一定是源字符集的超级或者目标字符集的范围包含源字符集的范围。

mysqldump -uroot -p --default-character-set=gbk -d databasename >createtb.sql

其中--default-character-set=gbk表示设置以什么字符集连接，-d表示只导出表结构，不导出数据。

mysqldump -root -p --quick --no-create-info --extended-insert --default-character-set=latin1 databasename>data.sql

create database databasename default charset bgk;

mysql -root -p databasename <createtb.sql

mysql -root -p databasename <data.sql

新的字符集一定要是原字符集的超集，不然转化之后，数据会出现乱码。常见字符集转换如下：

以上是关于mysql不同字符集的转换过程的主要内容，如果未能解决你的问题，请参考以下文章