Python数据分析8-----网页文本处理

Posted 咫片炫

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python数据分析8-----网页文本处理相关的知识,希望对你有一定的参考价值。

1、去除网页的标签,如<br/>

from bs4 import BeautifulrSoup 
preData=BeautifulSoup(data,html.parser).get_text()

 

2、将标点符号等去掉,用正则表达式。

import re
#表示将data中的除了大小写字母之外的符号换成空格 preData
=re.sub(r[^a-zA-Z], ,data)

3、将文本中的单词小写化,并将data用空格分开

words=data.lower().split()

4、去掉停用词

#可以自己下载停用词
#nltk.download() 
words_notstop=[w for w in words if w not in stopwords]

5、将所有的词连接成一个句子

sentence= .join(words)

 




以上是关于Python数据分析8-----网页文本处理的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫时,bs4无法读取网页标签中的文本

python 3 文本处理例子求代码

从“London”出发,8步搞定自然语言处理(Python代码)

Python中的HTMLParsercookielib抓取和解析网页从HTML文档中提取链接图像文本Cookies

Exp 8 Web基础

整理了25个Python文本处理案例,收藏!