Python数据分析8-----网页文本处理

Posted 2020-12-05 咫片炫

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python数据分析8-----网页文本处理相关的知识，希望对你有一定的参考价值。

1、去除网页的标签，如<br/>

from bs4 import BeautifulrSoup 
preData=BeautifulSoup(data,‘html.parser‘).get_text()

import re
#表示将data中的除了大小写字母之外的符号换成空格
preData=re.sub(r‘[^a-zA-Z]‘,‘ ‘,data)

words=data.lower().split()

#可以自己下载停用词
#nltk.download() 
words_notstop=[w for w in words if w not in stopwords]

sentence=‘ ‘.join(words)

以上是关于Python数据分析8-----网页文本处理的主要内容，如果未能解决你的问题，请参考以下文章