在 Python 中将嵌套的 JSON 转换为 CSV 文件
Posted
技术标签:
【中文标题】在 Python 中将嵌套的 JSON 转换为 CSV 文件【英文标题】:Convert nested JSON to CSV file in Python 【发布时间】:2017-05-02 01:08:24 【问题描述】:我知道这个问题已经被问过很多次了。我尝试了几种解决方案,但都无法解决我的问题。
我有一个大的嵌套 JSON 文件 (1.4GB),我想将其平铺,然后将其转换为 CSV 文件。
JSON结构是这样的:
"company_number": "12345678",
"data":
"address":
"address_line_1": "Address 1",
"locality": "Henley-On-Thames",
"postal_code": "RG9 1DP",
"premises": "161",
"region": "Oxfordshire"
,
"country_of_residence": "England",
"date_of_birth":
"month": 2,
"year": 1977
,
"etag": "26281dhge33b22df2359sd6afsff2cb8cf62bb4a7f00",
"kind": "individual-person-with-significant-control",
"links":
"self": "/company/12345678/persons-with-significant-control/individual/bIhuKnFctSnjrDjUG8n3NgOrl"
,
"name": "John M Smith",
"name_elements":
"forename": "John",
"middle_name": "M",
"surname": "Smith",
"title": "Mrs"
,
"nationality": "Vietnamese",
"natures_of_control": [
"ownership-of-shares-50-to-75-percent"
],
"notified_on": "2016-04-06"
我知道使用pandas
模块很容易做到这一点,但我不熟悉它。
已编辑
所需的输出应该是这样的:
company_number, address_line_1, locality, country_of_residence, kind,
12345678, Address 1, Henley-On-Thamed, England, individual-person-with-significant-control
请注意,这只是简短的版本。输出应该包含所有字段。
【问题讨论】:
你能显示想要的输出吗? 我已经编辑了我的帖子 首先您必须自己修复该错误.. 但我没有收到错误,并且 json 加载正常 Parsing nested JSON and writing it to CSV的可能重复 你检查过***.com/questions/20424473/…和github.com/vinay20045/json-to-csv吗? 【参考方案1】:请向下滚动查看更新、更快的解决方案
这是一个较老的问题,但我整晚都在为类似情况而努力获得令人满意的结果,我想出了这个:
import json
import pandas
def cross_join(left, right):
return left.assign(key=1).merge(right.assign(key=1), on='key', how='outer').drop('key', 1)
def json_to_dataframe(data_in):
def to_frame(data, prev_key=None):
if isinstance(data, dict):
df = pandas.DataFrame()
for key in data:
df = cross_join(df, to_frame(data[key], prev_key + '.' + key))
elif isinstance(data, list):
df = pandas.DataFrame()
for i in range(len(data)):
df = pandas.concat([df, to_frame(data[i], prev_key)])
else:
df = pandas.DataFrame(prev_key[1:]: [data])
return df
return to_frame(data_in)
if __name__ == '__main__':
with open('somefile') as json_file:
json_data = json.load(json_file)
df = json_to_dataframe(json_data)
df.to_csv('data.csv', mode='w')
说明:
cross_join 函数是我发现做笛卡尔积的一种巧妙方法。 (信用:here)
json_to_dataframe 函数使用 pandas 数据帧执行逻辑。就我而言,json 嵌套很深,我想将字典 key:value 对拆分为列,但 我想将列表转换为列的行 - - 因此是 concat - 然后我将其与上层交叉连接,从而将记录数相乘,以便列表中的每个值都有自己的行,而前面的列是相同的。
递归创建堆栈与下面的堆栈交叉连接,直到最后一个返回。
然后使用表格格式的数据框,使用 "df.to_csv()" 数据框对象方法很容易转换为 CSV。
这应该适用于深度嵌套的 JSON,能够通过上述逻辑将所有 JSON 规范化为行。
我希望有一天这会对某人有所帮助。只是想回馈这个很棒的社区。p>
------------------------------------------ --------------------------------------------------
后期编辑:新解决方案
我回到这个问题,因为虽然数据框选项有点工作,但应用程序需要几分钟来解析不太大的 JSON 数据。因此,我想自己做数据帧所做的事情:
from copy import deepcopy
import pandas
def cross_join(left, right):
new_rows = [] if right else left
for left_row in left:
for right_row in right:
temp_row = deepcopy(left_row)
for key, value in right_row.items():
temp_row[key] = value
new_rows.append(deepcopy(temp_row))
return new_rows
def flatten_list(data):
for elem in data:
if isinstance(elem, list):
yield from flatten_list(elem)
else:
yield elem
def json_to_dataframe(data_in):
def flatten_json(data, prev_heading=''):
if isinstance(data, dict):
rows = []
for key, value in data.items():
rows = cross_join(rows, flatten_json(value, prev_heading + '.' + key))
elif isinstance(data, list):
rows = []
for i in range(len(data)):
[rows.append(elem) for elem in flatten_list(flatten_json(data[i], prev_heading))]
else:
rows = [prev_heading[1:]: data]
return rows
return pandas.DataFrame(flatten_json(data_in))
if __name__ == '__main__':
json_data =
"id": "0001",
"type": "donut",
"name": "Cake",
"ppu": 0.55,
"batters":
"batter":
[
"id": "1001", "type": "Regular",
"id": "1002", "type": "Chocolate",
"id": "1003", "type": "Blueberry",
"id": "1004", "type": "Devil's Food"
]
,
"topping":
[
"id": "5001", "type": "None",
"id": "5002", "type": "Glazed",
"id": "5005", "type": "Sugar",
"id": "5007", "type": "Powdered Sugar",
"id": "5006", "type": "Chocolate with Sprinkles",
"id": "5003", "type": "Chocolate",
"id": "5004", "type": "Maple"
],
"something": []
df = json_to_dataframe(json_data)
print(df)
输出:
id type name ppu batters.batter.id batters.batter.type topping.id topping.type
0 0001 donut Cake 0.55 1001 Regular 5001 None
1 0001 donut Cake 0.55 1001 Regular 5002 Glazed
2 0001 donut Cake 0.55 1001 Regular 5005 Sugar
3 0001 donut Cake 0.55 1001 Regular 5007 Powdered Sugar
4 0001 donut Cake 0.55 1001 Regular 5006 Chocolate with Sprinkles
5 0001 donut Cake 0.55 1001 Regular 5003 Chocolate
6 0001 donut Cake 0.55 1001 Regular 5004 Maple
7 0001 donut Cake 0.55 1002 Chocolate 5001 None
8 0001 donut Cake 0.55 1002 Chocolate 5002 Glazed
9 0001 donut Cake 0.55 1002 Chocolate 5005 Sugar
10 0001 donut Cake 0.55 1002 Chocolate 5007 Powdered Sugar
11 0001 donut Cake 0.55 1002 Chocolate 5006 Chocolate with Sprinkles
12 0001 donut Cake 0.55 1002 Chocolate 5003 Chocolate
13 0001 donut Cake 0.55 1002 Chocolate 5004 Maple
14 0001 donut Cake 0.55 1003 Blueberry 5001 None
15 0001 donut Cake 0.55 1003 Blueberry 5002 Glazed
16 0001 donut Cake 0.55 1003 Blueberry 5005 Sugar
17 0001 donut Cake 0.55 1003 Blueberry 5007 Powdered Sugar
18 0001 donut Cake 0.55 1003 Blueberry 5006 Chocolate with Sprinkles
19 0001 donut Cake 0.55 1003 Blueberry 5003 Chocolate
20 0001 donut Cake 0.55 1003 Blueberry 5004 Maple
21 0001 donut Cake 0.55 1004 Devil's Food 5001 None
22 0001 donut Cake 0.55 1004 Devil's Food 5002 Glazed
23 0001 donut Cake 0.55 1004 Devil's Food 5005 Sugar
24 0001 donut Cake 0.55 1004 Devil's Food 5007 Powdered Sugar
25 0001 donut Cake 0.55 1004 Devil's Food 5006 Chocolate with Sprinkles
26 0001 donut Cake 0.55 1004 Devil's Food 5003 Chocolate
27 0001 donut Cake 0.55 1004 Devil's Food 5004 Maple
按照上面的做法,cross_join 函数的作用与数据帧解决方案几乎相同,但没有数据帧,因此速度更快。
我添加了 flatten_list 生成器,因为我想确保 JSON 数组都很好且扁平化,然后作为单个字典列表提供,其中包含来自一次迭代的前一个键,然后分配给列表的每个值。这几乎模仿了本例中的 pandas.concat 行为。
主函数中的逻辑,json_to_dataframe则和之前一样。需要改变的只是将数据帧执行的操作作为编码函数。
此外,在数据框解决方案中,我没有将前一个标题附加到嵌套对象,但除非您 100% 确定列名没有冲突,否则它几乎是强制性的。
我希望这会有所帮助:)。
EDIT:修改了cross_join函数处理嵌套列表为空的情况,基本保持之前的结果集不变。即使在示例 JSON 数据中添加空 JSON 列表后,输出也不会改变。谢谢你,@Nazmus Sakib 指出这一点。
【讨论】:
你的代码对我来说有点尴尬。我对python不是很熟悉,但我很确定你的缩进是不正确的。你能复习一下吗? @Qw3ry 是的,你是对的。谢谢你提到它。现在应该没事了。 这个新解决方案完美运行,将复杂的 json 转换为数据框。然后我可以轻松地将其转换为 CSV。谢谢! 这个解决方案需要更多的欣赏!!!对我来说效果很好。 这真是太棒了!!!【参考方案2】:对于您提供的 JSON 数据,您可以通过解析 JSON 结构以仅返回所有叶节点的列表来执行此操作。
这假设您的结构始终是一致的,如果每个条目可以有不同的字段,请参阅第二种方法。
例如:
import json
import csv
def get_leaves(item, key=None):
if isinstance(item, dict):
leaves = []
for i in item.keys():
leaves.extend(get_leaves(item[i], i))
return leaves
elif isinstance(item, list):
leaves = []
for i in item:
leaves.extend(get_leaves(i, key))
return leaves
else:
return [(key, item)]
with open('json.txt') as f_input, open('output.csv', 'w', newline='') as f_output:
csv_output = csv.writer(f_output)
write_header = True
for entry in json.load(f_input):
leaf_entries = sorted(get_leaves(entry))
if write_header:
csv_output.writerow([k for k, v in leaf_entries])
write_header = False
csv_output.writerow([v for k, v in leaf_entries])
如果您的 JSON 数据是您给定格式的条目列表,那么您应该得到如下输出:
address_line_1,company_number,country_of_residence,etag,forename,kind,locality,middle_name,month,name,nationality,natures_of_control,notified_on,postal_code,premises,region,self,surname,title,year
Address 1,12345678,England,26281dhge33b22df2359sd6afsff2cb8cf62bb4a7f00,John,individual-person-with-significant-control,Henley-On-Thames,M,2,John M Smith,Vietnamese,ownership-of-shares-50-to-75-percent,2016-04-06,RG9 1DP,161,Oxfordshire,/company/12345678/persons-with-significant-control/individual/bIhuKnFctSnjrDjUG8n3NgOrl,Smith,Mrs,1977
Address 1,12345679,England,26281dhge33b22df2359sd6afsff2cb8cf62bb4a7f00,John,individual-person-with-significant-control,Henley-On-Thames,M,2,John M Smith,Vietnamese,ownership-of-shares-50-to-75-percent,2016-04-06,RG9 1DP,161,Oxfordshire,/company/12345678/persons-with-significant-control/individual/bIhuKnFctSnjrDjUG8n3NgOrl,Smith,Mrs,1977
如果每个条目可以包含不同(或可能缺失)的字段,那么更好的方法是使用DictWriter
。在这种情况下,需要处理所有条目以确定可能的fieldnames
的完整列表,以便可以写入正确的标题。
import json
import csv
def get_leaves(item, key=None):
if isinstance(item, dict):
leaves =
for i in item.keys():
leaves.update(get_leaves(item[i], i))
return leaves
elif isinstance(item, list):
leaves =
for i in item:
leaves.update(get_leaves(i, key))
return leaves
else:
return key : item
with open('json.txt') as f_input:
json_data = json.load(f_input)
# First parse all entries to get the complete fieldname list
fieldnames = set()
for entry in json_data:
fieldnames.update(get_leaves(entry).keys())
with open('output.csv', 'w', newline='') as f_output:
csv_output = csv.DictWriter(f_output, fieldnames=sorted(fieldnames))
csv_output.writeheader()
csv_output.writerows(get_leaves(entry) for entry in json_data)
【讨论】:
我认为如果嵌套的键值在整个 json 文件中不一致,这可能会导致问题。如果其中一个结构缺少字段,则该行中的数据将被偏移。 此代码不适用于我的 json 数据。我只能解析这个键:“K6v8Ht6nXCjaO_ApNGr”你能帮我吗?请。我的python版本是3.6.4 @tpbafk,对于 Python 3.x,您需要对open()
命令进行细微更改(我已经更新了脚本),但如果没有看到您的 JSON,我将无法告诉你它没有解析所有内容的原因。也许你应该开始一个新问题?
同意@the_cat_lady 如果缺少字段,代码将不起作用
@SriniSydney 如果您的条目包含不同的字段,那么更好的方法是使用DictWriter
。需要首先解析数据以获得完整的fieldname
列表。我已经更新了答案,以帮助您了解如何做到这一点。【参考方案3】:
你可以使用pandas库的json_normalize函数来扁平化结构体,然后随意处理。例如:
import pandas as pd
import json
raw = """[
"company_number": "12345678",
"data":
"address":
"address_line_1": "Address 1",
"locality": "Henley-On-Thames",
"postal_code": "RG9 1DP",
"premises": "161",
"region": "Oxfordshire"
,
"country_of_residence": "England",
"date_of_birth":
"month": 2,
"year": 1977
,
"etag": "26281dhge33b22df2359sd6afsff2cb8cf62bb4a7f00",
"kind": "individual-person-with-significant-control",
"links":
"self": "/company/12345678/persons-with-significant-control/individual/bIhuKnFctSnjrDjUG8n3NgOrl"
,
"name": "John M Smith",
"name_elements":
"forename": "John",
"middle_name": "M",
"surname": "Smith",
"title": "Mrs"
,
"nationality": "Vietnamese",
"natures_of_control": [
"ownership-of-shares-50-to-75-percent"
],
"notified_on": "2016-04-06"
]"""
data = json.loads(raw)
data = pd.json_normalize(data)
print(data.to_csv())
这给了你:
,company_number,data.address.address_line_1,data.address.locality,data.address.postal_code,data.address.premises,data.address.region,data.country_of_residence,data.date_of_birth.month,data.date_of_birth.year,data.etag,data.kind,data.links.self,data.name,data.name_elements.forename,data.name_elements.middle_name,data.name_elements.surname,data.name_elements.title,data.nationality,data.natures_of_control,data.notified_on
0,12345678,Address 1,Henley-On-Thames,RG9 1DP,161,Oxfordshire,England,2,1977,26281dhge33b22df2359sd6afsff2cb8cf62bb4a7f00,individual-person-with-significant-control,/company/12345678/persons-with-significant-control/individual/bIhuKnFctSnjrDjUG8n3NgOrl,John M Smith,John,M,Smith,Mrs,Vietnamese,['ownership-of-shares-50-to-75-percent'],2016-04-06
【讨论】:
【参考方案4】:参考 Bogdan Mircea 的回答,
代码几乎达到了我的目的! 但只要遇到嵌套 json 中的空列表,它就会返回一个空数据框。
您可以通过将其放入代码中轻松解决此问题
elif isinstance(data, list):
rows = []
if(len(data) != 0):
for i in range(len(data)):
[rows.append(elem) for elem in flatten_list(flatten_json(data[i], prev_heading))]
else:
data.append(None)
[rows.append(elem) for elem in flatten_list(flatten_json(data[0], prev_heading))]
【讨论】:
很棒的收获。当我不得不处理我的问题时没有遇到这个,但是我修改了 cross_join 函数来处理这个并编辑了答案。谢谢!以上是关于在 Python 中将嵌套的 JSON 转换为 CSV 文件的主要内容,如果未能解决你的问题,请参考以下文章