Python爬虫——网页上的字符按照我的想法输出

Posted sherlocksweet

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫——网页上的字符按照我的想法输出相关的知识,希望对你有一定的参考价值。

最近学习Python爬虫,"明明是按照步骤做,怎么我会出现好多的问题?"

引言:在网页之中,将爬取的内容输出展示出来,但是往往会出现很多的格式的问题,

如 s = “   正经的内容 又是内容    不要的  ”

如何将上面不要的字符删除或者提取出需要的呢?

1、提取出需要 正经的内容 又是内容    不要的

s.text[8:-2]; 就是取出第8个字符,到倒数第二个字符。

2、删除左边的

s.rstrip(‘ ‘);

3、删除右边的 字符

s.lstrip(‘ ‘)

4、删除两边的字符

s.strip(‘ ‘).strip(‘ ‘); 删除两边的换行以及空格

5、删除特定的字符

s.replace(‘不要的‘, ‘a‘);将“不要的”部分内容,用a代替

import re

# 去除 不要的字符

 

re.sub(‘[ 不要的字符]‘, ‘‘, s)  

 

以上是关于Python爬虫——网页上的字符按照我的想法输出的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫抓取信息的问题

python 爬网页 遇到重定向怎么处理

Python爬虫爬取网页上的所有图片

python爬虫之中文编码问题

什么是爬虫技术

Python爬虫安装 pyQuery 遇到的坑 Could not find function xmlCheckVersion in library libxml2. Is libxml2 ins(代