扁平化深度嵌套的 JSON 以获取 Dataframe 的最快和通用方法是啥?

Posted

技术标签:

【中文标题】扁平化深度嵌套的 JSON 以获取 Dataframe 的最快和通用方法是啥?【英文标题】:What is the fastest and generic way to flatten deeply nested JSON to get a Dataframe?扁平化深度嵌套的 JSON 以获取 Dataframe 的最快和通用方法是什么? 【发布时间】:2018-05-02 05:38:19 【问题描述】:

我正在尝试对从 Google 时间轴获得的我自己的位置数据进行一些描述。但是在尝试获取一些可行的数据时,将其从 JSON 文件转换为 DataFrame。它提出了一些我想得到一些答案的问题,因为在尝试将 JSON 文件转换为 DataFrame 时,我觉得我将以一种低效的方式来做。

描述我的 JSON 的样子。它是一个 3 级深度的 JSON,大约有 450 万行。 JSON 的一个小例子:

"locations" : [ 

  "timestampMs" : "1489591483",
  "latitudeE7" : -21.61909,
  "longitudeE7" : 121.65283,
  "accuracy" : 23,
  "velocity" : 18,
  "heading" : 182,
  "altitude" : 55,
  "activity" : [ 
    "timestampMs" : "1489591507",
    "activity" : [ 
      "type" : "IN_VEHICLE",
      "confidence" : 49
    , 
      "type" : "UNKNOWN",
      "confidence" : 17
    , 
      "type" : "ON_BICYCLE",
      "confidence" : 15
    , 
      "type" : "ON_FOOT",
      "confidence" : 9
    , 
      "type" : "STILL",
      "confidence" : 9
    , 
      "type" : "WALKING",
      "confidence" : 9
     ]
   ]
,
...
]

要将其转换为 DataFrame,我想将这 3 个级别扁平化为 0 个级别。我已经看到了一些将 json_normalize 与 .apply 或 .append 结合使用的实现,但因此您仍然需要知道值的键,我宁愿看到它更通用(所以不知道键)。它还需要手动迭代这些值。现在我想知道的是:“有没有一种方法可以在不使用应用或附加的情况下自动将 JSON 扁平化到 0 级?”如果没有这样的方法,那么扁平化 JSON 并将其转换为 DataFrame 的首选方法是什么?


编辑:添加了 DataFrame 应该是什么样子的示例以及 JSON 的更好示例。


为了给出一个 DataFrame 应该是什么样子的小例子,请看下图:

为了包含一个更好的 JSON 外观示例,我在下面包含了一个 Pastebin URL: tiny location history sample

【问题讨论】:

你能举一个小例子,说明你希望数据框在你拥有的 JSON sn-p 下是什么样子吗? 另外,如果您提供有效的 json,也会有所帮助。只需获取您的完整数据并将其缩减为具有相同通用格式的较小版本。 @BradSolomon 我添加了一个基于 JSON 的 DataFrame 应该如何显示的示例,并且我添加了一个带有更大 JSON 示例的 Pastebin 的 URL。经度、纬度和时间戳是 Pastebin 示例中的随机数。提前致谢。 【参考方案1】:

使用json_normalize,指定record_pathmeta_path

df = pd.io.json.json_normalize(d, ['locations', 'activity', 'activity'], 
                         ['locations', ['locations', 'activity', 'timestampMs']])
df = df.drop('locations', 1).add_prefix('activity.')
v = pd.DataFrame(df['locations'].tolist()).drop('activity', 1)    

pd.concat([df, v], 1)


   activity.confidence activity.type activity.locations.activity.timestampMs  \
0                   49    IN_VEHICLE                              1489591507   
1                   17       UNKNOWN                              1489591507   
2                   15    ON_BICYCLE                              1489591507   
3                    9       ON_FOOT                              1489591507   
4                    9         STILL                              1489591507   
5                    9       WALKING                              1489591507   

   accuracy  altitude  heading  latitudeE7  longitudeE7 timestampMs  velocity  
0        23        55      182   -21.61909    121.65283  1489591483        18  
1        23        55      182   -21.61909    121.65283  1489591483        18  
2        23        55      182   -21.61909    121.65283  1489591483        18  
3        23        55      182   -21.61909    121.65283  1489591483        18  
4        23        55      182   -21.61909    121.65283  1489591483        18  
5        23        55      182   -21.61909    121.65283  1489591483        18  

【讨论】:

所以总是需要将键传递给值,而不能通用? json_normalize 会在哪个 json_normalize 中找到自己如何扁平化 JSON? @user3473161 json_normalize 不能创造奇迹。您仍然需要告诉它如何处理数据。在某些情况下,该结构非常简单,以至于它可以自行推断事物。但是在这种情况下,您需要帮助它。这也是 API 文档记录不佳的部分结果,可能还有其他方法可以做到这一点,但天知道我不知道它是什么。 我没想到会有什么不同,但我总能希望。我对某些框架必须提供的奢华感到非常满意。很多时候,这包括一个很好的方法,你根本不需要指定任何东西,它知道如何解决问题。但确实如你所说;它不在文档中,但这并不总是意味着它不存在,它可能尚未记录在案。因为我只是在学习 Pandas,我想以一种完美的方式向往它,所以我问了这个问题。只是为了确保我没有错过那里的东西。 我稍微改变了我的问题,因为你的评论我意识到我需要强调通用部分。 @user3473161 你的问题有点老了。为什么不打开一个新问题说“这是我正在使用的代码......可以让它更通用吗?”【参考方案2】:

你需要..flatten_json库:https://github.com/amirziai/flatten

然后使用此函数和代码自动将深度嵌套的 json 转换为 pandas 数据帧

from flatten_json import flatten
#testjson sample string is provided further below

def jsonNormalize(data):
    dic_flattened = (flatten(dd) for dd in data)
    df = pd.DataFrame(dic_flattened)
    return df


# flatten(testjson)
df1 = jsonNormalize(testjson)
df1

这将像这样生成数据帧 df:

testjson 示例字符串如下:

testjson = ["locations" : [ 

  "timestampMs" : "1489591483",
  "latitudeE7" : -21.61909,
  "longitudeE7" : 121.65283,
  "accuracy" : 23,
  "velocity" : 18,
  "heading" : 182,
  "altitude" : 55,
  "activity" : [ 
    "timestampMs" : "1489591507",
    "activity" : [ 
      "type" : "IN_VEHICLE",
      "confidence" : 49
    , 
      "type" : "UNKNOWN",
      "confidence" : 17
    , 
      "type" : "ON_BICYCLE",
      "confidence" : 15
    , 
      "type" : "ON_FOOT",
      "confidence" : 9
    , 
      "type" : "STILL",
      "confidence" : 9
    , 
      "type" : "WALKING",
      "confidence" : 9
     ]
   ]

],
           "locations" : [ 

  "timestampMs" : "1489591483",
  "latitudeE7" : -21.61909,
  "longitudeE7" : 121.65283,
  "accuracy" : 23,
  "velocity" : 18,
  "heading" : 182,
  "altitude" : 55,
  "activity" : [ 
    "timestampMs" : "1489591507",
    "activity" : [ 
      "type" : "IN_VEHICLE",
      "confidence" : 49
    , 
      "type" : "UNKNOWN",
      "confidence" : 17
    , 
      "type" : "ON_BICYCLE",
      "confidence" : 15
    , 
      "type" : "ON_FOOT",
      "confidence" : 9
    , 
      "type" : "STILL",
      "confidence" : 9
    , 
      "type" : "WALKING",
      "confidence" : 9
     ]
   ]

]]

【讨论】:

以上是关于扁平化深度嵌套的 JSON 以获取 Dataframe 的最快和通用方法是啥?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 SwiftyJSON 从深度嵌套的 JSON 字典中获取字符串 [重复]

扁平化 SVG 嵌套转换的工具 [关闭]

嵌套的json扁平化火花数据框

JSON多层嵌套复杂结构数据扁平化处理转为行列数据

使用 pandas json_normalize 扁平化包含多个嵌套列表的字典列表

如何使用 angular2 ngFor 深度嵌套的 json 值