python 爬虫爬取内容时, xa0 u00A0,u0020, u3000 的含义与处理方法
Posted J哥。
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 爬虫爬取内容时, xa0 u00A0,u0020, u3000 的含义与处理方法相关的知识,希望对你有一定的参考价值。
python 爬虫爬取内容时, \\xa0 、 \\u3000 的含义与处理方法
HTML转义字符&npsp;表示non-breaking space,unicode编码为u'\\xa0',超出gbk编码范围?
如何处理:.extract_first().replace(u'\\xa0', u' ').strip().encode('utf-8','replace') --->针对列表使用
\\xa0 是不间断空白符
str.replace(u’\\xa0’, u’ ‘)\\u3000 是全角的空白符
str.replace(u’\\u3000’,u’ ‘)title.strip(‘\\r\\n’).replace(u’\\u3000’, u’ ‘).replace(u’\\xa0’, u’ ‘)
content.strip(“”).strip(‘\\r\\n’).replace(u’\\u3000’, u’ ‘).replace(u’\\xa0’, u’ ‘)
补充:三种空格unicode(\\u00A0,\\u0020,\\u3000)表示的区别
1.不间断空格\\u00A0,主要用在office中,让一个单词在结尾处不会换行显示,快捷键ctrl+shift+space ;
2.半角空格(英文符号)\\u0020,代码中常用的;
3.全角空格(中文符号)\\u3000,中文文章中使用;
以上是关于python 爬虫爬取内容时, xa0 u00A0,u0020, u3000 的含义与处理方法的主要内容,如果未能解决你的问题,请参考以下文章