一个完整的大作业
Posted 素欣
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一个完整的大作业相关的知识,希望对你有一定的参考价值。
1.选一个自己感兴趣的主题。最近好多人和我说要去旅游,我就想自己家这边有什么吸引人的地方呢?
2.网络上爬取相关的数据,截取网站的标题以及来源。
import requests
from bs4 import BeautifulSoup
res=requests.get(\'http://trips.tuniu.com/search?q=%E6%BD%AE%E6%B1%95\')
res.encoding=\'utf-8\'
soup=BeautifulSoup(res.text,\'html.parser\')
for trips in soup.select(\'li\'):
if len(trips.select(\'.list-name\'))>0:
title=trips.select(\'.list-name\')[0].text
url=trips.select(\'a\')[0][\'href\']
print(title,url)
3.进行文本分析,生成词云。使用字典的方法统计出20个词。
import jieba fr=open("csx.txt",\'r\',encoding=\'utf-8\') s=list(jieba.cut(fr.read())) exp={\',\',\'\\n\',\'.\',\'。\'} key=set(s)-exp dic={} for i in key: dic[i]=s.count(i) wc=list(dic.items()) wc.sort(key=lambda x:x[1],reverse=True) for i in range(20): print(wc[i]) fr.close()
生成词云。
#coding:utf-8 import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt text =open("csx.txt",\'r\',encoding=\'utf-8\').read() print(text) wordlist = jieba.cut(text,cut_all=True) wl_split = "/".join(wordlist) mywc = WordCloud( font_path="simfang.ttf" ).generate(text) plt.imshow(mywc) plt.axis("off") plt.show()
以上是关于一个完整的大作业的主要内容,如果未能解决你的问题,请参考以下文章