怎么查询汉字的GB2312字符代码

Posted 2023-04-21

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了怎么查询汉字的GB2312字符代码相关的知识，希望对你有一定的参考价值。

我希望可以查询到汉字的GB2312字符代码有这种软件吗

演示浏览器：QQ浏览器

1、点击链接：动态网站制作指南-GB2312简体中文编码表，回车进入下面的页面，GB2312简体中文编码表。

2、按Ctrl+F快捷键，输入要查找的汉字或者是编码，查找结果就会被加上背景色显示。比如搜索字符代码“A2A0”。按键盘ctrl+f，浏览器上方出现搜索框，输入汉字“A2A0”，然后下方出现被搜索的“A2A0”，可以看到“A2A0”对应的汉字。

3、比如要查找汉字“万”的字符代码。按键盘ctrl+f，浏览器上方出现搜索框，输入汉字“万”，然后下方出现被搜索的“万”，可以看到“万”对应的字符代码“CDF0”。

参考技术A 进入此页面：http://www.knowsky.com/resource/gb2312tbl.htm
就进入了GB2312简体中文编码表
用Ctrl+F查找需要的字，就能找出相应字符代码了。

字符编码（英语：Character encoding）也称字集码，是把字符集中的字符编码为指定集合中某一对象（例如：比特模式、自然数序列、8位组或者电脉冲），以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。其中，ASCII将字母、数字和其它符号编号，并用7比特的二进制来表示这个整数。通常会额外使用一个扩充的比特，以便于以1个字节的方式存储。参考技术B http://www.knowsky.com/resource/gb2312tbl.htm
GB2312简体中文编码表

用Ctrl+F查找你要的字本回答被提问者采纳

编码与解码

1.字符编码
技术分享图片
ascii码(不能直接写字符，汉字从而引入了GBK码)
GB2312 收录了7445个汉字及字符；
GBK1.0 收录了21886个汉字及字符；
GB18030 收录了27484个汉字及字符；
unicode 国际标准但都需要俩个字节；
utf-8 是优化的国际化的统一标准，（是可变长的字符集）英文及其字符用1byte表示，而汉字要用3bite表示；

2 .代码中的体现

res1=‘你好‘
res2=‘hello‘

print(res1.encode(‘utf-8‘) ,type(res1.encode(‘utf-8‘)))   # b‘**xe4xbdxa0**xe5xa5xbd‘  bytes类型
print(res2.encode(‘utf-8‘))         # b‘hello‘

print(res1.encode(‘gbk‘),type(res1.encode(‘gbk‘)))   # b‘**xc4xe3**xbaxc3‘                bytes类型
print(res2.encode(‘gbk‘))        # b‘hello‘

能够发现英文在gbk与utf-8的编码下是不发生变换的;而汉字在gbk的编码下是2字节,而在utf-8的编码下是3字节,类型是bytes类型

ret1=b‘xe4xbdxa0xe5xa5xbd‘
print(ret1.decode(‘utf-8‘))
print(ret1.decode(‘gbk‘))      #  会出现乱码 浣犲ソ

能够发现utf-8编码下的bytes类型,由gbk解码能够解码但出现了乱码,因为gbk每2个字节解码一次

ret2=b‘xc4xe3xbaxc3‘
print(ret2.decode(‘gbk‘))     #  能够解码为    你好

print(ret2.decode(‘utf-8‘))
#  报错的类型:  UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xc4 in position 0: invalid continuation byte
能够发现utf-8编码下的bytes类型,由gbk解码能够解码但出现了乱码,因为gbk每2个字节解码一次

3.实际中遇到的问题(模拟黏包问题)`

server端:

import socket

sk=socket.socket()
sk.bind((‘127.0.0.1‘,8091))
sk.setsockopt(socket.SOL_SOCKET,socket.SO_REUSEADDR,1)

sk.listen()
conn,addre=sk.accept()

while True:
    cmd=input(‘>>>‘)
    if cmd==‘Q‘:
        conn.send(cmd.encode(‘utf-8‘))
        break
    conn.send(cmd.encode(‘utf-8‘))
    res=conn.recv(1024)
    print(res.decode(‘utf-8‘))
conn.close()

sk.close()

client端:


import socket
import subprocess

sk=socket.socket()

sk.connect((‘127.0.0.1‘,8091))

while True:
    cmd=sk.recv(1024).decode(‘utf-8‘)
    if cmd==‘Q‘:
        break
    res=subprocess.Popen(cmd,shell=True,stdout=subprocess.PIPE,stderr=subprocess.PIPE)  # stdout；stderr拿到的数据就是bytes类型
    stdout=‘stdout:‘+res.stdout.read().**decode(‘gbk‘)**     # 这里的解码只能是gbk,因为它的编码形式就是gbk
    stderr = ‘stderr:‘ + res.stderr.read()**.decode(‘gbk‘)**  
    sk.send(bytes(stdout,encoding=‘utf-8‘))
    sk.send(bytes(stderr,encoding=‘utf-8‘))

sk.close()

4.个注意的问题:
1.socket,send(‘数据类型只能是bytes,传码之前一定要编码‘);
2.str+ bytes是不能拼接的,只有将bytes类型解码成str才能拼接;

(能力有限,多多指教^-^)

以上是关于怎么查询汉字的GB2312字符代码的主要内容，如果未能解决你的问题，请参考以下文章

micropython中怎么将gb2312编码的字节流变成中文

PHP中当前文件为GBK或GB2312编码，怎么用正则表达式取汉字