请大神帮我看看为啥我这个简单的小爬虫得不到数据?急急急急急!!!

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了请大神帮我看看为啥我这个简单的小爬虫得不到数据?急急急急急!!!相关的知识,希望对你有一定的参考价值。

# -*- coding: utf-8 -*-

import time
import re

from scrapy.spider import Spider
from scrapy.selector import Selector

from start.items import LoanItem

class hepaiSpider(CrawlSpider):
name = "hepai"
allowed_domains = ["he-pai.cn"]
start_urls = [
"http://www.he-pai.cn/investmentDetail/investmentDetails/view.do?ln_no=JK14091800496365"
]

def parse(self,response):

sel = Selector(response)
item = LoanItem()
sites = sel.xpath("//div[@class='box4_c']")
item['company_name'] = '合拍在线'
item['title'] = sel.xpath("div[@class='t']/p/span[1]/text()").extract()
item['link'] = sel.xpath("div[@class='t']/p/span[1]/a/@href").extract()
item['pay_way'] = sel.xpath("div[@class='con']/ul/li[@class='li2']/cite/text()").extract()
return item
====================================分割线=======================================
这是运行结果:
2014-09-18 11:20:19+0800 [scrapy] INFO: Enabled item pipelines: mysqlStorePipeline
2014-09-18 11:20:19+0800 [hepai] INFO: Spider opened
2014-09-18 11:20:19+0800 [hepai] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2014-09-18 11:20:19+0800 [scrapy] DEBUG: Telnet console listening on 0.0.0.0:6023
2014-09-18 11:20:19+0800 [scrapy] DEBUG: Web service listening on 0.0.0.0:6080
2014-09-18 11:20:20+0800 [hepai] DEBUG: Crawled (200) <GET http://www.he-pai.cn/investmentDetail/investmentDetails/view.do?ln_no=JK14091800496365> (referer: None)
2014-09-18 11:20:20+0800 [hepai] DEBUG: Scraped from <200 http://www.he-pai.cn/investmentDetail/investmentDetails/view.do?ln_no=JK14091800496365>
'company_name': '\xe5\x90\x88\xe6\x8b\x8d\xe5\x9c\xa8\xe7\xba\xbf',
'link': [],
'pay_way': [],
'title': []
2014-09-18 11:20:20+0800 [hepai] INFO: Closing spider (finished)
2014-09-18 11:20:20+0800 [hepai] INFO: Dumping Scrapy stats:
'downloader/request_bytes': 310,
'downloader/request_count': 1,
'downloader/request_method_count/GET': 1,
'downloader/response_bytes': 23326,
'downloader/response_count': 1,
'downloader/response_status_count/200': 1,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2014, 9, 18, 3, 20, 20, 109765),
'item_scraped_count': 1,
'log_count/DEBUG': 4,
'log_count/INFO': 7,
'response_received_count': 1,
'scheduler/dequeued': 1,
'scheduler/dequeued/memory': 1,
'scheduler/enqueued': 1,
'scheduler/enqueued/memory': 1,
'start_time': datetime.datetime(2014, 9, 18, 3, 20, 19, 588369)
2014-09-18 11:20:20+0800 [hepai] INFO: Spider closed (finished)

关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。
我们观察scrapy抓包时的输出就能发现,在请求我们设定的url之前,它会先向服务器根目录请求一个txt文件:
这个文件中规定了本站点允许的爬虫机器爬取的范围(比如你不想让百度爬取你的页面,就可以通过robot来限制),因为默认scrapy遵守robot协议,所以会先请求这个文件查看自己的权限
我们在setting改变ROBOTSTXT_OBEY为False,让scrapy不要遵守robot协议,之后就能正常爬取了
参考技术A ?.. LZ

想练DOTA是很简单的。

1,在我看来,是心态。

不管亡或为队友骂别生气别难过。没有必要和他侮辱,但分析。

双手在面前,可大脑。第一个想到的为什么会被人骂自己错了。

或者一个小的失误或错误释放技能是很重要的
请不要做,如果第一点看到的......

2操作(及时响应能力)。

酒店在DOTA里面。很多技能是瞬发的,但也有很多方法来逃避。

让自己练成习惯,看到一个英雄抬手,你知道什么技能来运行或扔破坏。

第二点看起来有点困难 - - ,,有点像全国冠军,但实际上是一件好事

地方甚至10%,甚至1%将成为经典

页3 ..意识看小地图上看到更多这些都是要掌握的视频非常重要的。

4发挥着越来越做法(最重要的)是全国冠军,甚至每天保持10小时的运动量

新手像你提到它。多次练习到位,只要患者持之以恒那天不是说别人是菜鸟

LZ加油追问

你大爷!

为啥我的navicat for mysql 一按就出现错误 还有我为啥创不到数据库 求大神解答!

参考技术A

你这个没启动。

追问

我下的是naivcat for mysql

追答

跟你的数据库管理工具没关系,你的mysql数据库服务都还没开启呢。怎么能连上数据库。
你先把mysql数据库服务启动起来。

以上是关于请大神帮我看看为啥我这个简单的小爬虫得不到数据?急急急急急!!!的主要内容,如果未能解决你的问题,请参考以下文章

c语言求助 帮我看看,求大神,错误是syntax error before'&' token,急

c++求大神帮我看看为啥这个程序运行不了?关于图形工厂总是出现redefinition of 'class BaseShape'

急!!!求大神指教 为啥我的VC6停在这个页面不会动了 打不开了 我刚才只是下载了一个西红柿插件。。。

请大神帮我看看我的Eclipse的获取数据,没报错就是显示不出来,测试方法能出来,页面数据出不来,找了好久

loadrunner-检测到的响应时间远小于用户实际查询时间。 哪位大神能帮忙看看?急急急~!

html5拖拽问题在 Chrome 上提示错误,请大神帮我看看怎么回事