python基础:字符编码问题三个不可见的字符(0xEF 0xBB 0xBF,即BOM)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python基础:字符编码问题三个不可见的字符(0xEF 0xBB 0xBF,即BOM)相关的知识,希望对你有一定的参考价值。

一、用utf-8格式保存的txt文件等,如何去掉BOM头

Windows系统的txt文件在使用utf-8编码保存时会默认在文件开头插入三个不可见的字符(0xEF 0xBB 0xBF)称为BOM头,这个BOM头在python的codecs库中已经定义为常量(codecs.BOM_UTF8)

方法一:utf8temp.txt保存时选择utf-8保存

1 import codecs
2 data=open("utf8temp.txt",r,encoding=utf-8).read()
3 data=data.encode(encoding=utf-8)
4 print(data)
5 #print("中文".encode(encoding=‘utf-8‘))
6 print(len(data))
7 if data[:3]==codecs.BOM_UTF8:
8     data=data[3:]
9     print(data.decode(encoding=utf-8))

输出如下:

b‘\\xef\\xbb\\xbf\\xe4\\xb8\\xad\\xe6\\x96\\x87‘
9
中文

 

方法二:

1 with open("./temp.txt","r",encoding=utf-8) as f:
2     flag=1
3     for line in f:
4         if flag==1:
5              line=line[1:]#去掉txt格式为utf-8会在文件第一行开头插入
6                           # 三个不可见的字符(0xEF 0xBB 0xBF)--(‘.’)                       
7              flag=0
8         print(line)

 

 

方法三:直接用第三方软件去掉BOM头,用notepad++打开txt文件,选择编码...without BOM,点击保存

技术分享

 



以上是关于python基础:字符编码问题三个不可见的字符(0xEF 0xBB 0xBF,即BOM)的主要内容,如果未能解决你的问题,请参考以下文章

Base64 总结

js字符串三个编码编码的区别

python基础之编码问题

python GSM 7bit 编码

Python基础day-5[字符编码,文件处理,函数]

python基础之字符编码