Pandas DataFrame 将 jsons 列列表转换为信息行，每个“id”

Posted 2023-03-12

技术标签:

【中文标题】Pandas DataFrame 将 jsons 列列表转换为信息行，每个“id”【英文标题】：Pandas DataFrame turn a list of jsons column into informative row, per "id" 【发布时间】：2019-04-27 05:03:15 【问题描述】：

考虑以下DataFrame：

import pandas as pd

df = pd.DataFrame('id': [1, 2, 3],
               'json_col': [ ['aa' : 1, 'ab' : 1, 'aa' : 3, 'ab' : 2, 'ac': 6],
                             ['aa' : 1, 'ab' : 2, 'ac': 1, 'aa' : 5],
                             ['aa': 3, 'ac': 2] ])
df
Out[134]: 
   id                                           json_col
0   1  ['aa': 1, 'ab': 1, 'aa': 3, 'ab': 2, 'ac': 6]
1   2           ['aa': 1, 'ab': 2, 'ac': 1, 'aa': 5]
2   3                               ['aa': 3, 'ac': 2]

我们可以看到每个id都有一个json列表。

我希望，对于每个 'id' 及其列表中的每个对应 json，在 DataFrame 中都有一个 'row'。所以下面的DataFrame 会是这样的：

   id  aa   ab   ac
0   1   1  1.0  NaN
1   1   3  2.0  6.0
2   2   1  2.0  1.0
3   2   5  NaN  NaN
4   3   3  NaN  2.0

我们可以看到，id '1' 在它的列表中有 2 个对应的 json，因此它在新的DataFrame 中有 2 行

是否有使用 panda、numpy 或 json 功能的 Python 方法？

添加解决方案的运行时间

setup = """
import pandas as pd
df = pd.DataFrame('id': [1, 2, 3],
               'json_col': [ ['aa' : 1, 'ab' : 1, 'aa' : 3, 'ab' : 2, 'ac': 6],
                             ['aa' : 1, 'ab' : 2, 'ac': 1, 'aa' : 5],
                             ['aa': 3, 'ac': 2] ])
"""

s1 = """
df = pd.concat(
       [pd.DataFrame(j, index=[i]*len(j)) for i, j in enumerate(df['json_col'], 1)],
       sort=False
     )                             
"""

s2 = """
recs = df.apply(lambda x: [**'id': x.id, **d for d in x.json_col], axis=1).sum()
df2 = pd.DataFrame.from_records(recs)
"""

%timeit(s1, setup)
52.3 ns ± 2.6 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
%timeit(s2, setup)
50.6 ns ± 3.28 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)

【问题讨论】：

【参考方案1】：

这是一种快速方法，将所有json_col 的字典列表转换为DataFrame 并将它们连接在一起并进行一些调整以创建id 列：

In [51]: df = pd.concat(
           [pd.DataFrame(j, index=[i]*len(j)) for i, j in enumerate(json_col, 1)],
           sort=False
         )

In [52]: df.index.name = 'id'

In [53]: df.reset_index()
Out[53]: 
   id  aa   ab   ac
0   1   1  1.0  NaN
1   1   3  2.0  6.0
2   2   1  2.0  1.0
3   2   5  NaN  NaN
4   3   3  NaN  2.0

【讨论】：

阿里解决方案工作速度更快，但它更python且易于理解，所以我会接受这个 @EranMoshe 不过，另一个答案很可能会慢一些。我也是这么想的。但timeit 证明我错了。我可能会误用它。你想试试吗？ @EranMoshe 哦，这很有趣！你能用基准更新你的问题吗？谢谢。再次检查后，它们的运行大致相同。不过我会编辑它。【参考方案2】：

以下是完成此操作的一种简短方法，尽管我个人不认为它非常 Pythonic，因为代码有点难以阅读，而且性能不是很好，但对于小数据争论这个应该可以解决问题：

recs = df.apply(lambda x: [**'id': x.id, **d for d in x.json_col], axis=1).sum()
df2 = pd.DataFrame.from_records(recs)
# outputs:
   aa   ab   ac  id
0   1  1.0  NaN   1
1   3  2.0  6.0   1
2   1  2.0  1.0   2
3   5  NaN  NaN   2
4   3  NaN  2.0   3

工作原理：

应用的 lambda 通过将 id: x.id 的内容合并到 x.json_col 中的字典列表中的每个字典来创建一个新字典（其中 x 是一行）。

然后将其相加。由于对元素列表求和会将它们合并为一个大元素列表，因此 recs 具有以下形式

['id': 1, 'aa': 1, 'ab': 1,
 'id': 1, 'aa': 3, 'ab': 2, 'ac': 6,
 'id': 2, 'aa': 1, 'ab': 2, 'ac': 1,
 'id': 2, 'aa': 5,
 'id': 3, 'aa': 3, 'ac': 2]

然后简单地从记录构造一个新的数据框。

【讨论】：

以上是关于Pandas DataFrame 将 jsons 列列表转换为信息行，每个“id”的主要内容，如果未能解决你的问题，请参考以下文章