Lua 编码 CodePage CP 936 Unicode 中文 UTF8 Native Code 库library 搜集

Posted 2020-12-21 robertl

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Lua 编码 CodePage CP 936 Unicode 中文 UTF8 Native Code 库library 搜集相关的知识，希望对你有一定的参考价值。

不常用，查了又忘，遇到时又抓狂，记录下，疑问请留言。内容来自经验总结，盲人摸象，不系统，不正确。

Lua 5.3，Win 10，ZeroBrane Studio。

字符按码表被编码。

字符character（符号）与编码code（数值）的映射（编码）关系。

字符-编码->编码、编码-解码->字符。

映射关系体现为码表，可称为字符集。

字符在码表中的编码，被称为编码位置（简称码位，英文code point、code position）。

一个字符可以被多个码表描述，有多个编码方式。

Lua（5.3）中utf8编码下，有assert(‘·‘==‘194183‘ and ‘·‘==‘u{b7}‘)。

Windows系统中码表称为代码页。

CHCP命令可查看、设置系统代码页。

命令chcp.com位于C:WindowsSystem32chcp.com。

此路径被包含于PATH环境变量下，可在命令行CMD、Lua os.execute执行。

Unicode，一个具体的码表，包含所有字符及其编码，是字符集。

Lua文档/文件的编码可设置，此处为utf-8 (utf8)。

Lua文档/文件/代码中的字面字符（称为字面量、literal string）受Lua文件编码的影响（称为硬编码）。

如，字符"·"在utf8编码的文件中编码值（编码）为194,183，在CP936编码的文件中编码值为161,164。

Lua中可在字面量字符串中嵌入字节（byte）编码，形如"xXX"（十六进制）或"ddd"（十进制）。

则，在utf8编码的文件中，有assert("·"=="194183")；在CP936编码的文件中，有assert("·"=="161164")。

Lua中可在字符串中嵌入utf8二次编码的Unicode编码（见后），形如"u{XXX}"。

参见3.1 – Lexical Conventions：The UTF-8 encoding of a Unicode character can be inserted in a literal string。

以上嵌入的编码不受Lua文件编码的影响。

代码页（CodePage/CP）一个个具体的码表，各自包含一定范围的字符及其编码，是字符集。

包含一定范围的字符即包含所有字符的Unicode的子集。

代码页中的字符是Unicode的子集，但其编码不一定与Unicode编码相同。

如中文子集，包含中文环境涉及的字符，英文字符、中文字符等，其中英文字符的代码页编码或与Unicode编码一致。

代码页描述的字符范围较Unicode小，进而，存储空间小、编码/解码时间短。

叫做代码页，是因为定义的各代码页字符集是按数字编号的。CP1、CP2、..CP936..、CP65000、CP65001。

CP0为系统/环境代码页，CP65001为UTF-8（参见如下utf-8）。

GB2312/GBK是不同版本的国标码表。

GBK版本更高，兼容GB2312。

GBK被Unicode采纳收录到CP936。

其他不常见的中文码表CP54936 (GB 18030)。

utf-8是压缩/再编码/重编码/二次编码/转换方法。

把固定长度的某编码转换为一个或多个8位二进制单元的变长度编码。

编码与utf8可以互相转换。

codepoint_to_utf8(codepoint)、utf8_to_codepoint(string,index)，unicode库里接口函数名为unicode.encode、unicode.decode。

utf8_to_unicode(srcstr)、unicode_to_utf8(srcstr)。

参见github pure lua 库1、库2。

codepoint为环境下的编码？（或严格为Unicode编码？）

以上的CP65001即对Unicode编码进行的utf8二次编码。

通常默认的utf8即面向Unicode的CP65001。也可转换其他编码？

codepoint_to_utf8‘·‘报错‘out of range‘？CP936不能转utf8？

没弄懂，怀疑是本地环境同为CP936的原因。