Python爬虫——网页上的字符按照我的想法输出
Posted sherlocksweet
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫——网页上的字符按照我的想法输出相关的知识,希望对你有一定的参考价值。
最近学习Python爬虫,"明明是按照步骤做,怎么我会出现好多的问题?"
引言:在网页之中,将爬取的内容输出展示出来,但是往往会出现很多的格式的问题,
如 s = “ 正经的内容 又是内容 不要的 ”
如何将上面不要的字符删除或者提取出需要的呢?
1、提取出需要 正经的内容 又是内容 不要的:
s.text[8:-2]; 就是取出第8个字符,到倒数第二个字符。
2、删除左边的
s.rstrip(‘
‘);
3、删除右边的 字符
s.lstrip(‘ ‘)
4、删除两边的字符
s.strip(‘
‘).strip(
‘ ‘
); 删除两边的换行以及空格
5、删除特定的字符
s.replace(
‘不要的‘
, ‘a‘);将“不要的”部分内容,用a代替
import
re
# 去除
不要的字符
re.sub(
‘[
不要的字符]‘
, ‘‘, s)
以上是关于Python爬虫——网页上的字符按照我的想法输出的主要内容,如果未能解决你的问题,请参考以下文章
Python爬虫安装 pyQuery 遇到的坑 Could not find function xmlCheckVersion in library libxml2. Is libxml2 ins(代