scrapy的文件下载问题?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy的文件下载问题?相关的知识,希望对你有一定的参考价值。

写了一个文件下载的pipeline,重写item_completed方法时,发现里面的item的值都是最后一次的值。调试时,在get_media_requests方法中打印出来的item的值没有任务问题,有谁能解释或者解决这个问题不?class DownloadFilePipeline(FilesPipeline): ''' 下载文件用的pipe ''' def get_media_requests(self, item, info): logger.debug('download file info ==========>'.format(item)) urls = ItemAdapter(item).get(self.files_urls_field, []) return [Request(u, meta='fileName':item['fileName']) for u in urls] def file_path(self, request, response=None, info=None): #file_name = request.url.split("/")[-1] file_name = request.meta['fileName'] logger.info('download filename ==========>'.format(file_name)) return file_name def item_completed(self, results, item, info): with suppress(KeyError): ItemAdapter(item)[self.files_result_field] = [x for ok, x in results if ok] logger.info('download file results ==========>'.format(results)) logger.debug('download file info ==========>'.format(item)) return item pass

参考技术A 这个网站的文件url不能直接yield给scrpy处理需要用selenium通过C1ⅰCk方式下载,这类问题要去看文档下载项目图片scrapyo.24.6文档里会有解决方案,scrapy的图片讲得很详细。

以上是关于scrapy的文件下载问题?的主要内容,如果未能解决你的问题,请参考以下文章

真正的打包scrapy单文件(不包含cfg)

外部导包scrapy转scrapy框架的问题

Scrapy 从站点下载 json 文件?

Scrapy - 输出到多个 JSON 文件

安装Scrapy遇到的问题

Scrapy输出文件格式问题汇总