python 爬虫爬取内容时, xa0 u00A0,u0020, u3000 的含义与处理方法

Posted J哥。

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 爬虫爬取内容时, xa0 u00A0,u0020, u3000 的含义与处理方法相关的知识,希望对你有一定的参考价值。

python 爬虫爬取内容时, \\xa0 、 \\u3000 的含义与处理方法

HTML转义字符&npsp;表示non-breaking space,unicode编码为u'\\xa0',超出gbk编码范围?

如何处理:.extract_first().replace(u'\\xa0', u' ').strip().encode('utf-8','replace') --->针对列表使用

\\xa0 是不间断空白符  
str.replace(u’\\xa0’, u’ ‘)

\\u3000 是全角的空白符
str.replace(u’\\u3000’,u’ ‘)

title.strip(‘\\r\\n’).replace(u’\\u3000’, u’ ‘).replace(u’\\xa0’, u’ ‘)
content.strip(“”).strip(‘\\r\\n’).replace(u’\\u3000’, u’ ‘).replace(u’\\xa0’, u’ ‘)

补充:三种空格unicode(\\u00A0,\\u0020,\\u3000)表示的区别

1.不间断空格\\u00A0,主要用在office中,让一个单词在结尾处不会换行显示,快捷键ctrl+shift+space ;
2.半角空格(英文符号)\\u0020,代码中常用的;
3.全角空格(中文符号)\\u3000,中文文章中使用;

 

 

 

以上是关于python 爬虫爬取内容时, xa0 u00A0,u0020, u3000 的含义与处理方法的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫怎么爬取左右没有标签的内容

python爬虫爬取页面源码在本页面展示

如何利用python爬取网页内容

Python爬虫之爬取页面内容图片以及用selenium爬取

python爬虫登录知乎后怎样爬取数据

python爬虫:爬取读者某一期内容