xa0 u3000 的问题

Posted xintiao9

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了xa0 u3000 的问题相关的知识,希望对你有一定的参考价值。

xa0 、 u3000 的问题

https://www.cnblogs.com/BlackStorm/p/6359005.html

xa0 是不间断空白符 ` `

我们通常所用的空格是 x20 ,是在标准ASCII可见字符 0x20~0x7e 范围内。
而 xa0 属于 latin1 (ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breaking space)
latin1 字符集向下兼容 ASCII ( 0x20~0x7e )。通常我们见到的字符多数是 latin1 的,比如在 mysql 数据库中。

这里也有一张简陋的Latin1字符集对照表

u3000 是全角的空白符

根据Unicode编码标准及其基本多语言面的定义, u3000 属于CJK字符CJK标点符号区块内,是空白字符之一。它的名字是 Ideographic Space ,有人译作表意字空格、象形字空格等。顾名思义,就是全角的 CJK 空格。它跟 nbsp 不一样,是可以被换行间断的。常用于制造缩进, wiki 还说用于抬头,但没见过。

这里还有一个 Unicode.org 上关于 CJK 标点符号块的字符代码表

BeautifulSoup下Unicode乱码解决

s.replace(u'xa0', u'').encode('utf-8')

以上是关于xa0 u3000 的问题的主要内容,如果未能解决你的问题,请参考以下文章

去除u3000

如何删除 html 源代码中的 '\xa0'? [复制]

将项目添加到列表时,python 中的奇怪问题是删除 \xa0 和其他编码[重复]

消除 xa0返回UnicodeEncodeError

在使用 python 进行网络抓取时,是不是有任何直接的方法可以从输出中删除 \xa0 [重复]

Repeater用ul li,一行显示多条数据