Python数据分析8-----网页文本处理

Posted 咫片炫

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python数据分析8-----网页文本处理相关的知识,希望对你有一定的参考价值。

1、去除网页的标签,如<br/>

from bs4 import BeautifulrSoup 
preData=BeautifulSoup(data,html.parser).get_text()

 

2、将标点符号等去掉,用正则表达式。

import re
#表示将data中的除了大小写字母之外的符号换成空格 preData
=re.sub(r[^a-zA-Z], ,data)

3、将文本中的单词小写化,并将data用空格分开

words=data.lower().split()

4、去掉停用词

#可以自己下载停用词
#nltk.download() 
words_notstop=[w for w in words if w not in stopwords]

5、将所有的词连接成一个句子

sentence= .join(words)

 




以上是关于Python数据分析8-----网页文本处理的主要内容,如果未能解决你的问题,请参考以下文章