爬取校园新闻首页的新闻
Posted 编译原理是什么鬼啊
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬取校园新闻首页的新闻相关的知识,希望对你有一定的参考价值。
1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。
2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。
3. 将其中的发布时间由str转换成datetime类型。
4. 将完整的代码及运行结果截图发布在作业上。
import requests from bs4 import BeautifulSoup url = \'http://news.gzcc.cn/html/xiaoyuanxinwen/\' res = requests.get(url) res.encoding = \'utf-8\' soup = BeautifulSoup(res.text, \'html.parser\') print(soup.select(\'.news-list\')[0].select(\'li\')) for new in soup.select(\'.news-list\')[0].select(\'li\'): # 标题 ti = new.select(\'.news-list-title\')[0].text # 时间 tim = new.select(\'span\')[0].text # 来源 source = new.select(\'span\')[1].text print(\'标题:\'+ ti + \' 时间:\'+ tim + \' 来源:\'+ source) # 链接 a = new.select(\'a\')[0].attrs[\'href\'] resd = requests.get(a) resd.encoding = \'utf-8\' soupd = BeautifulSoup(resd.text, \'html.parser\') # 正文 print(\'正文:\') content = soupd.select(\'#content\')[0].text.split() for c in content: print(c) info = \'发布时间:2018-04-01 11:57:00 作者:陈流芳 审核:权麟春 来源:马克思主义学院\' dt = info.lstrip(\'发布时间:\')[:15] print(dt) print(info.find(\'作者\'))#找到‘时间’位置 print(info[info.find(\'审核\'):].split()[0].lstrip(\'审核:\')) print(info[info.find(\'作者:\'):info.find(\'审核:\')]) from datetime import datetime now = datetime.now() print(now) print(tim) da = datetime.strptime(tim, \'%Y-%m-%d\') print(da) n = now.strftime(\'%y/%m/%d\') print(n)
以上是关于爬取校园新闻首页的新闻的主要内容,如果未能解决你的问题,请参考以下文章