如何将网页中的 JSON 转换为 Python 脚本

Posted

技术标签:

【中文标题】如何将网页中的 JSON 转换为 Python 脚本【英文标题】:How to get JSON from webpage into Python script 【发布时间】:2012-10-09 12:49:03 【问题描述】:

在我的一个脚本中得到以下代码:

#
# url is defined above.
#
jsonurl = urlopen(url)

#
# While trying to debug, I put this in:
#
print jsonurl

#
# Was hoping text would contain the actual json crap from the URL, but seems not...
#
text = json.loads(jsonurl)
print text

我想要做的是获取我在 Firefox 中将其加载到我的脚本中时在 URL 上看到的 .....etc..... 内容,以便我可以从中解析出一个值。我已经用谷歌搜索了很多,但我还没有找到一个很好的答案来说明如何从以.json 结尾的 URL 中实际获取 ... 内容到 Python 脚本中的对象中。

【问题讨论】:

【参考方案1】:

对于python>=3.6,您可以使用:

import dload

j = dload.json(url)

安装dload

pip3 install dload

【讨论】:

【参考方案2】:

不知道为什么所有早期的答案都使用json.loads。您只需要:

import json
from urllib.request import urlopen

f = urlopen("https://www.openml.org/d/40996/json")
j = json.load(f)

这是因为 urlopen 返回一个类似文件的对象,它适用于 json.load

【讨论】:

【参考方案3】:

您需要 import requests 并使用 from json() 方法:

source = requests.get("url").json()
print(source)

当然,这个方法也可以:

import json,urllib.request
data = urllib.request.urlopen("url").read()
output = json.loads(data)
print (output)

json.loads 将使用此table 将其解码为 Python 对象,例如 JSON 对象将成为 Python dict

【讨论】:

【参考方案4】:

从 URL 中获取数据,然后调用 json.loads 例如

Python3 示例

import urllib.request, json 
with urllib.request.urlopen("http://maps.googleapis.com/maps/api/geocode/json?address=google") as url:
    data = json.loads(url.read().decode())
    print(data)

Python2 示例

import urllib, json
url = "http://maps.googleapis.com/maps/api/geocode/json?address=google"
response = urllib.urlopen(url)
data = json.loads(response.read())
print data

输出结果如下:


"results" : [
    
    "address_components" : [
        
            "long_name" : "Charleston and Huff",
            "short_name" : "Charleston and Huff",
            "types" : [ "establishment", "point_of_interest" ]
        ,
        
            "long_name" : "Mountain View",
            "short_name" : "Mountain View",
            "types" : [ "locality", "political" ]
        ,
        
...

【讨论】:

而不是使用消耗字符串的json.loads(这就是为什么需要.read(),而是使用json.load(response) 仅PSL,简洁高效 urllib2 在 Python2 中更可取吗? 尝试data = json.load(url) 而不是@awatts 所说的data = json.loads(url.read().decode())【参考方案5】:

我发现这是使用 Python 3 时从网页获取 JSON 最简单、最有效的方法:

import json,urllib.request
data = urllib.request.urlopen("https://api.github.com/users?since=100").read()
output = json.loads(data)
print (output)

【讨论】:

这不起作用。您需要从 urllib.request 导入 urlopen,即from urllib.request import urlopen【参考方案6】:

这会从带有 Python 2.X 和 Python 3.X 的网页中获取 JSON 格式的字典:

#!/usr/bin/env python

try:
    # For Python 3.0 and later
    from urllib.request import urlopen
except ImportError:
    # Fall back to Python 2's urllib2
    from urllib2 import urlopen

import json


def get_jsonparsed_data(url):
    """
    Receive the content of ``url``, parse it as JSON and return the object.

    Parameters
    ----------
    url : str

    Returns
    -------
    dict
    """
    response = urlopen(url)
    data = response.read().decode("utf-8")
    return json.loads(data)


url = ("http://maps.googleapis.com/maps/api/geocode/json?"
       "address=googleplex&sensor=false")
print(get_jsonparsed_data(url))

另请参阅:Read and write example for JSON

【讨论】:

【参考方案7】:

你可以使用json.dumps

import json

# Hier comes you received data

data = json.dumps(response)

print(data)

对于加载 json 并将其写入文件,以下代码很有用:

data = json.loads(json.dumps(Response, sort_keys=False, indent=4))
with open('data.json', 'w') as outfile:
json.dump(data, outfile, sort_keys=False, indent=4)

【讨论】:

【参考方案8】:

在 Python 2 中,json.load() 将代替 json.loads() 工作

import json
import urllib

url = 'https://api.github.com/users?since=100'
output = json.load(urllib.urlopen(url))
print(output)

不幸的是,这在 Python 3 中不起作用。json.load 只是 json.loads 的一个包装器,它为类文件对象调用 read()。 json.loads 需要一个字符串对象,而 urllib.urlopen(url).read() 的输出是一个字节对象。因此,必须获取文件编码才能使其在 Python 3 中工作。

在此示例中,我们查询编码的标头,如果没有得到则回退到 utf-8。 Python 2 和 3 之间的 headers 对象不同,因此必须以不同的方式完成。使用requests 可以避免这一切,但有时您需要坚持使用标准库。

import json
from six.moves.urllib.request import urlopen

DEFAULT_ENCODING = 'utf-8'
url = 'https://api.github.com/users?since=100'
urlResponse = urlopen(url)

if hasattr(urlResponse.headers, 'get_content_charset'):
    encoding = urlResponse.headers.get_content_charset(DEFAULT_ENCODING)
else:
    encoding = urlResponse.headers.getparam('charset') or DEFAULT_ENCODING

output = json.loads(urlResponse.read().decode(encoding))
print(output)

【讨论】:

我知道 6 也不是标准库的一部分,但为了方便起见,这里显示了它。没有它,你需要一个 if/else 或 try/except 块来确定从哪里获取 urlopen()。【参考方案9】:

我猜你实际上是想从 URL 中获取数据:

jsonurl = urlopen(url)
text = json.loads(jsonurl.read()) # <-- read from it

或者,查看requests 库中的JSON decoder。

import requests
r = requests.get('someurl')
print r.json() # if response type was set to JSON, then you'll automatically have a JSON response here...

【讨论】:

这个问题值得获得绿色徽章!谢谢!【参考方案10】:

无需使用额外的库来解析 json...

json.loads() 返回一个dictionary。

所以在你的情况下,只需text["someValueKey"]

【讨论】:

【参考方案11】:

调用urlopen() 所做的一切(根据docs)是返回一个类似文件的对象。一旦你有了它,你需要调用它的read() 方法来真正通过网络拉取 JSON 数据。

类似:

jsonurl = urlopen(url)

text = json.loads(jsonurl.read())
print text

【讨论】:

以上是关于如何将网页中的 JSON 转换为 Python 脚本的主要内容,如果未能解决你的问题,请参考以下文章

python - 如何将csv转换为python pandas中的嵌套json?

如何将谷歌云自然语言实体情感响应转换为 Python 中的 JSON/dict?

如何将返回的python JSON字典转换为字典中的列表,并将数据转换为SQL插入

如何让页脚留在网页底部?

如何让页脚留在网页底部?

如何让页脚留在网页底部?