scrapy的文件下载问题？

Posted 2023-03-04

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了scrapy的文件下载问题？相关的知识，希望对你有一定的参考价值。

写了一个文件下载的pipeline，重写item_completed方法时，发现里面的item的值都是最后一次的值。调试时，在get_media_requests方法中打印出来的item的值没有任务问题，有谁能解释或者解决这个问题不？class DownloadFilePipeline(FilesPipeline): ''' 下载文件用的pipe ''' def get_media_requests(self, item, info): logger.debug('download file info ==========>'.format(item)) urls = ItemAdapter(item).get(self.files_urls_field, []) return [Request(u, meta='fileName':item['fileName']) for u in urls] def file_path(self, request, response=None, info=None): #file_name = request.url.split("/")[-1] file_name = request.meta['fileName'] logger.info('download filename ==========>'.format(file_name)) return file_name def item_completed(self, results, item, info): with suppress(KeyError): ItemAdapter(item)[self.files_result_field] = [x for ok, x in results if ok] logger.info('download file results ==========>'.format(results)) logger.debug('download file info ==========>'.format(item)) return item pass

参考技术A 这个网站的文件url不能直接yield给scrpy处理需要用selenium通过C1ⅰCk方式下载，这类问题要去看文档下载项目图片scrapyo.24.6文档里会有解决方案，scrapy的图片讲得很详细。

以上是关于scrapy的文件下载问题？的主要内容，如果未能解决你的问题，请参考以下文章