如何将网页中的 JSON 转换为 Python 脚本
Posted
技术标签:
【中文标题】如何将网页中的 JSON 转换为 Python 脚本【英文标题】:How to get JSON from webpage into Python script 【发布时间】:2012-10-09 12:49:03 【问题描述】:在我的一个脚本中得到以下代码:
#
# url is defined above.
#
jsonurl = urlopen(url)
#
# While trying to debug, I put this in:
#
print jsonurl
#
# Was hoping text would contain the actual json crap from the URL, but seems not...
#
text = json.loads(jsonurl)
print text
我想要做的是获取我在 Firefox 中将其加载到我的脚本中时在 URL 上看到的 .....etc.....
内容,以便我可以从中解析出一个值。我已经用谷歌搜索了很多,但我还没有找到一个很好的答案来说明如何从以.json
结尾的 URL 中实际获取 ...
内容到 Python 脚本中的对象中。
【问题讨论】:
【参考方案1】:对于python>=3.6
,您可以使用:
import dload
j = dload.json(url)
安装dload
:
pip3 install dload
【讨论】:
【参考方案2】:不知道为什么所有早期的答案都使用json.loads
。您只需要:
import json
from urllib.request import urlopen
f = urlopen("https://www.openml.org/d/40996/json")
j = json.load(f)
这是因为 urlopen
返回一个类似文件的对象,它适用于 json.load
。
【讨论】:
【参考方案3】:您需要 import requests
并使用 from json() 方法:
source = requests.get("url").json()
print(source)
当然,这个方法也可以:
import json,urllib.request
data = urllib.request.urlopen("url").read()
output = json.loads(data)
print (output)
json.loads
将使用此table 将其解码为 Python 对象,例如 JSON 对象将成为 Python dict
。
【讨论】:
【参考方案4】:从 URL 中获取数据,然后调用 json.loads
例如
Python3 示例:
import urllib.request, json
with urllib.request.urlopen("http://maps.googleapis.com/maps/api/geocode/json?address=google") as url:
data = json.loads(url.read().decode())
print(data)
Python2 示例:
import urllib, json
url = "http://maps.googleapis.com/maps/api/geocode/json?address=google"
response = urllib.urlopen(url)
data = json.loads(response.read())
print data
输出结果如下:
"results" : [
"address_components" : [
"long_name" : "Charleston and Huff",
"short_name" : "Charleston and Huff",
"types" : [ "establishment", "point_of_interest" ]
,
"long_name" : "Mountain View",
"short_name" : "Mountain View",
"types" : [ "locality", "political" ]
,
...
【讨论】:
而不是使用消耗字符串的json.loads
(这就是为什么需要.read()
,而是使用json.load(response)
。
仅PSL,简洁高效
urllib2
在 Python2 中更可取吗?
尝试data = json.load(url)
而不是@awatts 所说的data = json.loads(url.read().decode())
【参考方案5】:
我发现这是使用 Python 3 时从网页获取 JSON 最简单、最有效的方法:
import json,urllib.request
data = urllib.request.urlopen("https://api.github.com/users?since=100").read()
output = json.loads(data)
print (output)
【讨论】:
这不起作用。您需要从 urllib.request 导入 urlopen,即from urllib.request import urlopen
【参考方案6】:
这会从带有 Python 2.X 和 Python 3.X 的网页中获取 JSON 格式的字典:
#!/usr/bin/env python
try:
# For Python 3.0 and later
from urllib.request import urlopen
except ImportError:
# Fall back to Python 2's urllib2
from urllib2 import urlopen
import json
def get_jsonparsed_data(url):
"""
Receive the content of ``url``, parse it as JSON and return the object.
Parameters
----------
url : str
Returns
-------
dict
"""
response = urlopen(url)
data = response.read().decode("utf-8")
return json.loads(data)
url = ("http://maps.googleapis.com/maps/api/geocode/json?"
"address=googleplex&sensor=false")
print(get_jsonparsed_data(url))
另请参阅:Read and write example for JSON
【讨论】:
【参考方案7】:你可以使用json.dumps
:
import json
# Hier comes you received data
data = json.dumps(response)
print(data)
对于加载 json 并将其写入文件,以下代码很有用:
data = json.loads(json.dumps(Response, sort_keys=False, indent=4))
with open('data.json', 'w') as outfile:
json.dump(data, outfile, sort_keys=False, indent=4)
【讨论】:
【参考方案8】:在 Python 2 中,json.load() 将代替 json.loads() 工作
import json
import urllib
url = 'https://api.github.com/users?since=100'
output = json.load(urllib.urlopen(url))
print(output)
不幸的是,这在 Python 3 中不起作用。json.load 只是 json.loads 的一个包装器,它为类文件对象调用 read()。 json.loads 需要一个字符串对象,而 urllib.urlopen(url).read() 的输出是一个字节对象。因此,必须获取文件编码才能使其在 Python 3 中工作。
在此示例中,我们查询编码的标头,如果没有得到则回退到 utf-8。 Python 2 和 3 之间的 headers 对象不同,因此必须以不同的方式完成。使用requests 可以避免这一切,但有时您需要坚持使用标准库。
import json
from six.moves.urllib.request import urlopen
DEFAULT_ENCODING = 'utf-8'
url = 'https://api.github.com/users?since=100'
urlResponse = urlopen(url)
if hasattr(urlResponse.headers, 'get_content_charset'):
encoding = urlResponse.headers.get_content_charset(DEFAULT_ENCODING)
else:
encoding = urlResponse.headers.getparam('charset') or DEFAULT_ENCODING
output = json.loads(urlResponse.read().decode(encoding))
print(output)
【讨论】:
我知道 6 也不是标准库的一部分,但为了方便起见,这里显示了它。没有它,你需要一个 if/else 或 try/except 块来确定从哪里获取 urlopen()。【参考方案9】:我猜你实际上是想从 URL 中获取数据:
jsonurl = urlopen(url)
text = json.loads(jsonurl.read()) # <-- read from it
或者,查看requests 库中的JSON decoder。
import requests
r = requests.get('someurl')
print r.json() # if response type was set to JSON, then you'll automatically have a JSON response here...
【讨论】:
这个问题值得获得绿色徽章!谢谢!【参考方案10】:无需使用额外的库来解析 json...
json.loads()
返回一个dictionary。
所以在你的情况下,只需text["someValueKey"]
【讨论】:
【参考方案11】:调用urlopen()
所做的一切(根据docs)是返回一个类似文件的对象。一旦你有了它,你需要调用它的read()
方法来真正通过网络拉取 JSON 数据。
类似:
jsonurl = urlopen(url)
text = json.loads(jsonurl.read())
print text
【讨论】:
以上是关于如何将网页中的 JSON 转换为 Python 脚本的主要内容,如果未能解决你的问题,请参考以下文章
python - 如何将csv转换为python pandas中的嵌套json?
如何将谷歌云自然语言实体情感响应转换为 Python 中的 JSON/dict?