使用 Python 请求从 URL 保存图像 - URL 类型错误

Posted

技术标签:

【中文标题】使用 Python 请求从 URL 保存图像 - URL 类型错误【英文标题】:Saving Image from URL using Python Requests - URL type error 【发布时间】:2016-01-08 00:20:51 【问题描述】:

使用以下代码:

    with open('newim','wb') as f:
        f.write(requests.get(repr(url)))

网址在哪里:

    url = ''

我收到以下错误:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Python33\lib\site-packages\requests\api.py", line 69, in get
    return request('get', url, params=params, **kwargs)
  File "C:\Python33\lib\site-packages\requests\api.py", line 50, in request
    response = session.request(method=method, url=url, **kwargs)
  File "C:\Python33\lib\site-packages\requests\sessions.py", line 465, in request
    resp = self.send(prep, **send_kwargs)
  File "C:\Python33\lib\site-packages\requests\sessions.py", line 567, in send
    adapter = self.get_adapter(url=request.url)
  File "C:\Python33\lib\site-packages\requests\sessions.py", line 641, in get_adapter
    raise InvalidSchema("No connection adapters were found for '%s'" % url)

我看过其他帖子,乍一看,似乎是一个类似的问题,但我没有任何运气只是添加“https://”或类似的东西......我真的想避免在 webdriver+Autoit 或其他东西中执行此操作,因为我必须对数千张图像进行类似的练习。

【问题讨论】:

你从哪里得到的网址? 看来这是你的问题***.com/questions/15115328/… 【参考方案1】:

您对嵌入图像的概念的理解似乎有问题。实际上,您发布的url 是您的浏览器在您选择'查看图像''复制图像位置'(或类似的内容,具体取决于浏览器)从上下文菜单中,正式称为data URI。

不是指向图像的http url,您可以使用它从任何服务器检索实际图像:这正是requests在错误信息中指出。


那么,我们如何获得这些图片? 以下脚本将处理此任务:

import requests
from lxml import html
import binascii as ba

i = 0
url="<Page URL goes here>" #Ex: http://server/dir/images.html
page = requests.get(url)
struct = html.fromstring(page.text)
images = struct.xpath('//img/@src')

for img in images:
    i += 1
    ext = img.partition('data:image/')[2].split(';')[0]
    with open('newim'+str(i)+'.'+ext,'wb') as f:
        f.write(ba.a2b_base64(img.partition('base64,')[2]))

print("Done")

要运行它,您需要安装requests 以及lxml 库,该库位于here。


下面是脚本功能的简短描述:

首先它从服务器请求url,在它得到服务器的响应后,它把它存储在一个响应对象page)中。

然后它利用 lxml 中的html.fromstring()page 的“文本化”内容转换为树结构,该树结构可以通过使用XPath 语法的命令进行处理,如下所示: images = struct.xpath('//img/@src')

结果是一个list,其中包含页面中每个图像的src 属性的内容。在这种情况下(嵌入图像),这些是数据 URI。

然后,对于列表中的每个图像,它首先使用partition()split() 获取图像类型(将用作newim 的扩展名)并将其存储在ext 中。然后它将 base64 编码数据转换为二进制(使用 binascii 模块中的a2b_base64())并将输出写入文件。


作为一个小演示,将此html 代码(例如,images.html)保存在服务器的某个位置

<h1>Images</h1>
<img src="" />  
<br />
<img src=""></img>
<br />
<img src=""/>

并在脚本中指向它:requests.get("http://yourserver/somedir/images.html")

当您运行脚本时,您将获得以下 3 张图像: 、、,分别命名为newim1.pngnewim2.pngnewim3.jpg


提醒一下,请注意此脚本(以其当前形式)将仅处理嵌入图像。如果你也想处理普通的链接图像,那么你必须相应地修改它(但这并不难)。

【讨论】:

我似乎被重新路由到使用 requests 方法的登录...这有点神秘,因为我应该已经登录 webdriver 对象...我正在处理的网站是 rbauction.com 我的回答涵盖了使用requests 处理data uris 的一般方法。您提到的问题与您尚未使会话信息(自从您登录后为webdriver 所知)可用于requests 的事实有关。 Here 是一种可行的方法。【参考方案2】:

这是一张以 base64 编码的图像。引用下面的 URL:“base64 等于图像本身的文本(字符串)表示”。

阅读此内容以获得详细说明: http://www.stoimen.com/blog/2009/04/23/when-you-should-use-base64-for-images/

为了使用它们,您必须实现 base64 解码器。幸运的是,SO 已经为您提供了如何做到这一点的答案:

Python base64 data decode

【讨论】:

这是正确的答案...正确的函数是 base64.b64decode(datauri) 只需将解码后的字符串写入图像文件,然后瞧...您就有了图像。

以上是关于使用 Python 请求从 URL 保存图像 - URL 类型错误的主要内容,如果未能解决你的问题,请参考以下文章

如何保存或下载我在请求中获得的图像——Python

Python - 从网址保存图像[重复]

在 Python3 中使用请求下载图像

如何从 PHAsset 获取图像 URL?是不是可以使用 PHAsset URL 将图像保存到文档目录?

从 PHP URL 保存图像

Python 请求 - 从 response.text 中提取数据