Python数据分析8-----网页文本处理
Posted 咫片炫
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python数据分析8-----网页文本处理相关的知识,希望对你有一定的参考价值。
1、去除网页的标签,如<br/>
from bs4 import BeautifulrSoup preData=BeautifulSoup(data,‘html.parser‘).get_text()
2、将标点符号等去掉,用正则表达式。
import re
#表示将data中的除了大小写字母之外的符号换成空格 preData=re.sub(r‘[^a-zA-Z]‘,‘ ‘,data)
3、将文本中的单词小写化,并将data用空格分开
words=data.lower().split()
4、去掉停用词
#可以自己下载停用词 #nltk.download() words_notstop=[w for w in words if w not in stopwords]
5、将所有的词连接成一个句子
sentence=‘ ‘.join(words)
以上是关于Python数据分析8-----网页文本处理的主要内容,如果未能解决你的问题,请参考以下文章
从“London”出发,8步搞定自然语言处理(Python代码)