爬虫实例1-爬取新闻列表和发布时间

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫实例1-爬取新闻列表和发布时间相关的知识,希望对你有一定的参考价值。

一、新建工程

scrapy  startproject shop

 

二、Items.py文件代码:

import scrapy

 

class  ShopItem(scrapy.Item):

    title = scrapy.Field()

    time = scrapy.Field()

 

三、shopspider.py文件爬虫代码

#  -*-coding:UTF-8-*-

import scrapy

from shop.items  import ShopItem

 

class  shopSpider(scrapy.Spider):

    name = "shop"

    allowed_domains =  ["news.xxxxxxx.xx.cn"]

    start_urls = ["http://news.xxxxx.xxx.cn/hunan/"]

   

    def parse(self,response):

item  = ShopItem()

item[‘title‘]  =  response.xpath("//div[@class=‘txttotwe2‘]/ul/li/a/text()").extract()

item[‘time‘]  =  response.xpath("//div[@class=‘txttotwe2‘]/ul/li/font/text()").extract()

yield  item

 

四、pipelines.py文件代码(打印出内容):

注意:如果在shopspider.py文件中打印出内容则显示的是unicode编码,而在pipelines.py打印出来的信息则是正常的显示内容。

 

class  ShopPipeline(object):

    def process_item(self, item, spider):

        count=len(item[‘title‘])

        print ‘news count: ‘ ,count

        for i in range(0,count):

            print ‘biaoti: ‘+item[‘title‘][i]

            print ‘shijian: ‘+item[‘time‘][i]

        return item

 

五、爬取显示的结果:

[email protected]:~/shop#  scrapy crawl shop --nolog

news count:  40

biaoti:  xxx建成国家食品安全示范城市

shijian:  (2017-06-16)

biaoti: xxxx考试开始报名

……………………

…………………..

 


以上是关于爬虫实例1-爬取新闻列表和发布时间的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫实战案例:爬取新闻资讯

Python 网络爬虫实战:爬取南方周末新闻文章(带关键词筛选)

爬虫爬取新闻

Scrapy学习第四课

第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

爬虫实践爬取官方新闻标题正文时间