文件控制字符编码

Posted fengzzi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文件控制字符编码相关的知识,希望对你有一定的参考价值。

ASCII编码 (字母、数字、符号) 保存为1个字节
Unicode编码 (+汉字) 保存为2个字节
UTF-8编码 可变长编码格式
数字按大小保存为1-6个字节
英文字母保存为1个字节
汉字保存为3个字节
生僻字符保存为4-6个字节
计算机中统一使用Unicode编码,当需要保存到硬盘或需要传输的时候,将Unicode转换为utf-8
ord()获取字符的整数表示
chr()将整数转换为字符

str.encode("utf-8") 将字符串转换为utf-8编码
bytes.decode("ascii") 将字节流转换为字符串
字节流 b‘xe4xb8xadxe6x96x87‘ 表示“中文”

len(str)字符串长度

在windows系统中的文件换行符是
在linux系统下的文件换行符是

在ASCII码中,第0~31号及第127号(共33个)是控制字符或通讯专用字符,如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BS(退格)、BEL(振铃)等;通讯专用字符:SOH(文头)、EOT(文尾)、ACK(确认)等。

Seq 十进制 十六进制 缩写 字符名
00 0x00 NUL Null (空)
^A 01 0x01 SOH Start of Heading (报头开始)
^B 02 0x02 STX Start of Text (正文开始)
^C 03 0x03 ETX End of Text (正文结束)
^D 04 0x04 EOT End of Transmission (传输结束)
^E 05 0x05 ENQ Enquiry (查询)
^F 06 0x06 ACK Acknowledge (确认)
^G 07 0x07 BEL Bell (振铃)
^H 08 0x08 BS Backspace (退格)
^I 09 0x09 HT Horizontal Tab (水平制表)
^J 10 0x0A LF Line Feed (换行)
^K 11 0x0B VT Vertical Tab (垂直制表)
^L 12 0x0C FF Form Feed (换页)
^M 13 0x0D CR Carriage Return (回车)
^N 14 0x0E SO Shift Out (移出)
^O 15 0x0F SI Shift In (移入)
^P 16 0x10 DLE Data Link Escape (数据链路转义)
^Q 17 0x11 DC1 Device Control 1 (设备控制1)
^R 18 0x12 DC2 Device Control 2 (设备控制2)
^S 19 0x13 DC3 Device Control 3 (设备控制3)
^T 20 0x14 DC4 Device Control 4 (设备控制4)
^U 21 0x15 NAK Negative Acknowledge (否认)
^V 22 0x16 SYN Synchronous Idle (同步空闲)
^W 23 0x17 ETB End of Transmission Block (传输块结束)
^X 24 0x18 CAN Cancel (取消)
^Y 25 0x19 EM End of Medium (介质结束)
^Z 26 0x1A SUB Substitute (替换)
^[ 27 0x1B ESC Escape (转义)
^ 28 0x1C FS File Separator (文件分隔符)
^] 29 0x1D GS Group Separator (分组符)
^^ 30 0x1E RS Record Separator (记录分隔符)
^_ 31 0x1F US Unit Separator (单元分隔符)
127 0x7F DEL Delete (删除)

兼容的八位ISO/IEC 8859-1加上了从ISO/IEC 6429定义的从128到159的32个代码,位于0x80-0x9F。

十进制 十六进制 缩写 字符名
128 0x80 PAD Padding Character(填充字符)
129 0x81 HOP High Octet Preset(高字节前置)
130 0x82 BPH Break Permitted Here(此处允许中断)
131 0x83 NBH No Break Here(此处禁止中断)
132 0x84 IND Index(索引)
133 0x85 NEL Next Line(下一行)
134 0x86 SSA Start of Selected Area(选择区域开始)
135 0x87 ESA End of Selected Area(选择区域结束)
136 0x88 HTS Horizontal Tab Set(水平制表设置)
137 0x89 HTJ Horizontal Tab Justified(水平制表调整)
138 0x8A VTS Vertical Tab Set(垂直制表设置)
139 0x8B PLD Partial Line Forward(部分行前移)
140 0x8C PLU Partial Line Backward(部分行后移)
141 0x8D RI Reverse Line Feed(逆向馈行)
142 0x8E SS2 Single-Shift 2 (单个移动 2)
143 0x8F SS3 Single-Shift 3(单个移动 3)
144 0x90 DCS Device Control String(设备控制串)
145 0x91 PU1 Private Use 1(私用1)
146 0x92 PU2 Private Use 2(私用2)
147 0x93 STS Set Transmit State(发送规则设置)
148 0x94 CCH Cancel Character(取消字符)
149 0x95 MW Message Waiting(消息等待)
150 0x96 SPA Start of Protected Area(保护区域开始)
151 0x97 EPA End of Protected Area(保护区域结束)
152 0x98 SOS Start of String(串开始)
153 0x99 SGCI Single Graphic Char Intro(单个图形字符描述)
154 0x9A SCI Single Char Intro(单个字符描述)
155 0x9B CSI Control Sequence Intro(控制顺序描述)
156 0x9C ST String Terminator(串终止)
157 0x9D OSC OS Command(操作系统指令)
158 0x9E PM Private Message(私讯)
159 0x9F APC App Program Command(应用程序命令)












以上是关于文件控制字符编码的主要内容,如果未能解决你的问题,请参考以下文章

第二篇:流程控制数据类型字符编码文件处理

计算机基础 数据类型 流程控制 字符编码 文件操作

字符编码和文件处理

字符编码与文件处理

Python学习:字符编码及文件处理

python入门,数据类型,字符编码,文件处理