从嵌套的 json 列表中展平 Pandas DataFrame

Posted

技术标签:

【中文标题】从嵌套的 json 列表中展平 Pandas DataFrame【英文标题】:Flatten Pandas DataFrame from nested json list 【发布时间】:2016-12-01 06:54:20 【问题描述】:

也许有人可以帮助我。我试图将以下列表扁平化为熊猫数据框:

[u'_id': u'2',
  u'_index': u'list',
  u'_score': 1.4142135,
  u'_source': u'name': u'name3',
  u'_type': u'doc',
 u'_id': u'5',
  u'_index': u'list',
  u'_score': 1.4142135,
  u'_source': u'dat': u'2016-12-12', u'name': u'name2',
  u'_type': u'doc',
 u'_id': u'1',
  u'_index': u'list',
  u'_score': 1.4142135,
  u'_source': u'name': u'name1',
  u'_type': u'doc']

结果应该是这样的:

|_id   | _index | _score | name | dat        | _type |
------------------------------------------------------
|1     |list    |1.4142..| name1| nan        | doc   |
|2     |list    |1.4142..| name3| nan        | doc   |
|3     |list    |1.4142..| name1| 2016-12-12 | doc   |

但我所做的一切都无法得到想要的结果。 我用过这样的东西:

df = pd.concat(map(pd.DataFrame.from_dict, res['hits']['hits']), axis=1)['_source'].T

但后来我失去了 _source 字段之外的类型。 我也尝试过使用

test = pd.DataFrame(list)
for index, row in test.iterrows():
  test.loc[index,'d'] = 

但我不知道如何使用字段 _source 并将其附加到原始数据框中。

有人知道如何做到这一点并成为理想的结果吗?

【问题讨论】:

【参考方案1】:

使用json_normalize:

from pandas.io.json import json_normalize  

df = json_normalize(data)
print (df)
  _id _index    _score _source.dat _source.name _type
0   2   list  1.414214         NaN        name3   doc
1   5   list  1.414214  2016-12-12        name2   doc
2   1   list  1.414214         NaN        name1   doc

【讨论】:

以上是关于从嵌套的 json 列表中展平 Pandas DataFrame的主要内容,如果未能解决你的问题,请参考以下文章

pandas json_normalize 所有列都有嵌套字典展平

pandas json_normalize 展平嵌套字典

将嵌套的 Json 文件展平为 Pandas 数据框

Pandas json_normalize 不会展平所有嵌套字段

用嵌套列表和嵌套字典列表展平一个非常大的 Json

在熊猫数据框中展平嵌套的 Json