下载文件和图片
Posted colden
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了下载文件和图片相关的知识,希望对你有一定的参考价值。
下载文件和图片
Scrapy为下载item中包含的文件(比如在爬取到产品时,同时也想保存对应的图片)提供了一个可重用的item pipelines
。这些pipeline
有些共同的方法和结构我们称之为media pipeline
。一般来说你会使用Files Pipline
或者Images Pipeline
。
为什么要选择使用scrapy
内置的下载文件的方法
- 避免重新下载最近已经下载过的数据。
- 可以方便的指定文件存储的路径。
- 可以将下载的图片转换成通用的格式。比如png或jpg。
- 可以方便的生产缩略图。
- 可以方便的检测图片的宽和高,确保他们满足最小限制。
- 异步下载,效率非常高。
下载文件的File Pipeline
:
当使用Files Pipline
下载文件的时候,按照以下步骤来完成:
- 定义好一个
Item
,然后在这个item
中定义两个属性,分别为file_urls
以及files
。file_urls
是用来存储需要下载的文件的url链接,需要给一个列表。 - 当文件下载完成后,会把文件下载的相关信息存储到
item
的files
属性中。比如下载路径、下载的url和文件的效验码等。 - 在配置文件
settings.py
中配置FILES_STORE
,这个配置是用来设置文件下载下来的路径。 - 启动
pipeline
:在ITEM_PIPELINES
中设置scrapy.pipelines.files.FilesPipline:1
。
下载图片的Images Pipline
:
当使用Images Pipeline
下载文件的时候,按照以下步骤来完成:
- 定义好一个
Item
,然后在这个item
中定义两个属性,分别为image_urls
以及images
。image_urls
是用来存储需要下载的文件的url链接,需要给一个列表。 - 当文件下载完成后,会把文件下载的相关信息存储到
item
的images
属性中。比如下载路径、下载的url和文件的效验码等。 - 在配置文件
settings.py
中配置IMAGES_STORE
,这个配置是用来设置图片下载下来的路径。 - 启动
pipeline
:在ITEM_PIPELINES
中设置scrapy.pipelines.images.ImagesPipline:1
以上是关于下载文件和图片的主要内容,如果未能解决你的问题,请参考以下文章
我无法从 firebase 获取下载网址()。请任何人帮助这是我的代码和错误。 (我正在使用片段)[重复]