如何将网页中的 JSON 转换为 Python 脚本

Posted 2023-02-23

技术标签:

【中文标题】如何将网页中的 JSON 转换为 Python 脚本【英文标题】：How to get JSON from webpage into Python script 【发布时间】：2012-10-09 12:49:03 【问题描述】：

在我的一个脚本中得到以下代码：

#
# url is defined above.
#
jsonurl = urlopen(url)

#
# While trying to debug, I put this in:
#
print jsonurl

#
# Was hoping text would contain the actual json crap from the URL, but seems not...
#
text = json.loads(jsonurl)
print text

我想要做的是获取我在 Firefox 中将其加载到我的脚本中时在 URL 上看到的 .....etc..... 内容，以便我可以从中解析出一个值。我已经用谷歌搜索了很多，但我还没有找到一个很好的答案来说明如何从以.json 结尾的 URL 中实际获取 ... 内容到 Python 脚本中的对象中。

【问题讨论】：

【参考方案1】：

对于python>=3.6，您可以使用：

import dload

j = dload.json(url)

安装dload：

pip3 install dload

【讨论】：

【参考方案2】：

不知道为什么所有早期的答案都使用json.loads。您只需要：

import json
from urllib.request import urlopen

f = urlopen("https://www.openml.org/d/40996/json")
j = json.load(f)

这是因为 urlopen 返回一个类似文件的对象，它适用于 json.load。

【讨论】：

【参考方案3】：

您需要 import requests 并使用 from json() 方法：

source = requests.get("url").json()
print(source)

当然，这个方法也可以：

import json,urllib.request
data = urllib.request.urlopen("url").read()
output = json.loads(data)
print (output)

json.loads 将使用此table 将其解码为 Python 对象，例如 JSON 对象将成为 Python dict。

【讨论】：

【参考方案4】：

从 URL 中获取数据，然后调用 json.loads 例如

Python3 示例：

import urllib.request, json 
with urllib.request.urlopen("http://maps.googleapis.com/maps/api/geocode/json?address=google") as url:
    data = json.loads(url.read().decode())
    print(data)

Python2 示例：

import urllib, json
url = "http://maps.googleapis.com/maps/api/geocode/json?address=google"
response = urllib.urlopen(url)
data = json.loads(response.read())
print data

输出结果如下：


"results" : [
    
    "address_components" : [
        
            "long_name" : "Charleston and Huff",
            "short_name" : "Charleston and Huff",
            "types" : [ "establishment", "point_of_interest" ]
        ,
        
            "long_name" : "Mountain View",
            "short_name" : "Mountain View",
            "types" : [ "locality", "political" ]
        ,
        
...

【讨论】：

而不是使用消耗字符串的json.loads（这就是为什么需要.read()，而是使用json.load(response)。仅PSL，简洁高效 urllib2 在 Python2 中更可取吗？尝试data = json.load(url) 而不是@awatts 所说的data = json.loads(url.read().decode())【参考方案5】：

我发现这是使用 Python 3 时从网页获取 JSON 最简单、最有效的方法：

import json,urllib.request
data = urllib.request.urlopen("https://api.github.com/users?since=100").read()
output = json.loads(data)
print (output)

【讨论】：

这不起作用。您需要从 urllib.request 导入 urlopen，即from urllib.request import urlopen【参考方案6】：

这会从带有 Python 2.X 和 Python 3.X 的网页中获取 JSON 格式的字典：

#!/usr/bin/env python

try:
    # For Python 3.0 and later
    from urllib.request import urlopen
except ImportError:
    # Fall back to Python 2's urllib2
    from urllib2 import urlopen

import json


def get_jsonparsed_data(url):
    """
    Receive the content of ``url``, parse it as JSON and return the object.

    Parameters
    ----------
    url : str

    Returns
    -------
    dict
    """
    response = urlopen(url)
    data = response.read().decode("utf-8")
    return json.loads(data)


url = ("http://maps.googleapis.com/maps/api/geocode/json?"
       "address=googleplex&sensor=false")
print(get_jsonparsed_data(url))

另请参阅：Read and write example for JSON

【讨论】：

【参考方案7】：

你可以使用json.dumps：

import json

# Hier comes you received data

data = json.dumps(response)

print(data)

对于加载 json 并将其写入文件，以下代码很有用：

data = json.loads(json.dumps(Response, sort_keys=False, indent=4))
with open('data.json', 'w') as outfile:
json.dump(data, outfile, sort_keys=False, indent=4)

【讨论】：

【参考方案8】：

在 Python 2 中，json.load() 将代替 json.loads() 工作

import json
import urllib

url = 'https://api.github.com/users?since=100'
output = json.load(urllib.urlopen(url))
print(output)

不幸的是，这在 Python 3 中不起作用。json.load 只是 json.loads 的一个包装器，它为类文件对象调用 read()。 json.loads 需要一个字符串对象，而 urllib.urlopen(url).read() 的输出是一个字节对象。因此，必须获取文件编码才能使其在 Python 3 中工作。

在此示例中，我们查询编码的标头，如果没有得到则回退到 utf-8。 Python 2 和 3 之间的 headers 对象不同，因此必须以不同的方式完成。使用requests 可以避免这一切，但有时您需要坚持使用标准库。

import json
from six.moves.urllib.request import urlopen

DEFAULT_ENCODING = 'utf-8'
url = 'https://api.github.com/users?since=100'
urlResponse = urlopen(url)

if hasattr(urlResponse.headers, 'get_content_charset'):
    encoding = urlResponse.headers.get_content_charset(DEFAULT_ENCODING)
else:
    encoding = urlResponse.headers.getparam('charset') or DEFAULT_ENCODING

output = json.loads(urlResponse.read().decode(encoding))
print(output)

【讨论】：

我知道 6 也不是标准库的一部分，但为了方便起见，这里显示了它。没有它，你需要一个 if/else 或 try/except 块来确定从哪里获取 urlopen()。【参考方案9】：

我猜你实际上是想从 URL 中获取数据：

jsonurl = urlopen(url)
text = json.loads(jsonurl.read()) # <-- read from it

或者，查看requests 库中的JSON decoder。

import requests
r = requests.get('someurl')
print r.json() # if response type was set to JSON, then you'll automatically have a JSON response here...

【讨论】：

这个问题值得获得绿色徽章！谢谢！【参考方案10】：

无需使用额外的库来解析 json...

json.loads() 返回一个dictionary。

所以在你的情况下，只需text["someValueKey"]

【讨论】：

【参考方案11】：

调用urlopen() 所做的一切（根据docs）是返回一个类似文件的对象。一旦你有了它，你需要调用它的read() 方法来真正通过网络拉取 JSON 数据。

类似：

jsonurl = urlopen(url)

text = json.loads(jsonurl.read())
print text

【讨论】：

以上是关于如何将网页中的 JSON 转换为 Python 脚本的主要内容，如果未能解决你的问题，请参考以下文章