爬取校园新闻首页的新闻

Posted 编译原理是什么鬼啊

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬取校园新闻首页的新闻相关的知识,希望对你有一定的参考价值。


1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。

2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。

3. 将其中的发布时间由str转换成datetime类型。

4. 将完整的代码及运行结果截图发布在作业上。

import requests
from bs4 import BeautifulSoup
 
url = \'http://news.gzcc.cn/html/xiaoyuanxinwen/\'
res = requests.get(url)
res.encoding = \'utf-8\'
soup = BeautifulSoup(res.text, \'html.parser\')
print(soup.select(\'.news-list\')[0].select(\'li\'))
for new in soup.select(\'.news-list\')[0].select(\'li\'):
    # 标题
    ti = new.select(\'.news-list-title\')[0].text
    # 时间
    tim = new.select(\'span\')[0].text
    # 来源
    source = new.select(\'span\')[1].text
    print(\'标题:\'+ ti + \' 时间:\'+ tim + \' 来源:\'+ source)
    # 链接
    a = new.select(\'a\')[0].attrs[\'href\']
    resd = requests.get(a)
    resd.encoding = \'utf-8\'
    soupd = BeautifulSoup(resd.text, \'html.parser\')
    # 正文
    print(\'正文:\')
    content = soupd.select(\'#content\')[0].text.split()
    for c in content:
        print(c)
 
info = \'发布时间:2018-04-01 11:57:00      作者:陈流芳  审核:权麟春  来源:马克思主义学院\'
dt = info.lstrip(\'发布时间:\')[:15]
print(dt)
print(info.find(\'作者\'))#找到‘时间’位置
print(info[info.find(\'审核\'):].split()[0].lstrip(\'审核:\'))
print(info[info.find(\'作者:\'):info.find(\'审核:\')])
 
from datetime import datetime
now = datetime.now()
print(now)
print(tim)
da = datetime.strptime(tim, \'%Y-%m-%d\')
print(da)
n = now.strftime(\'%y/%m/%d\')
print(n)

以上是关于爬取校园新闻首页的新闻的主要内容,如果未能解决你的问题,请参考以下文章

爬取校园新闻首页的新闻

爬取校园新闻首页的新闻

爬取校园新闻首页的新闻

爬取校园新闻首页的新闻

爬取校园新闻首页的新闻

爬取校园新闻首页的新闻