将命名元组嵌套字典到熊猫数据框

Posted

技术标签:

【中文标题】将命名元组嵌套字典到熊猫数据框【英文标题】:Nested dictionary of namedtuples to pandas dataframe 【发布时间】:2016-11-11 12:06:15 【问题描述】:

我将命名元组定义如下:

In[37]: from collections import namedtuple
        Point = namedtuple('Point', 'x y')

嵌套字典的格式如下:

In[38]: d
Out[38]: 
1: None: 1: Point(x=1.0, y=5.0), 2: Point(x=4.0, y=8.0),
2: None: 1: Point(x=45324.0, y=24338.0), 2: Point(x=45.0, y=38.0)

我正在尝试从字典 d 创建一个熊猫数据框,而不必执行 for 循环。

我已经成功地通过这样做从字典的子集创建了数据框:

In[40]: df=pd.DataFrame(d[1][None].values())

In[41]: df

Out[41]: 
   x  y
0  1  5
1  4  8

但我希望能够从整个字典中创建数据框。

我希望数据框输出以下内容(我正在使用多索引表示法):

In[42]: df
Out[42]:
Subcase Step ID  x       y
1       None 1   1.0     5.0
             2   4.0     8.0
2       None 1   45324.0 24338.0
             2   45.0    38.0

DataFrame的from_dict方法,最多只支持两层嵌套,所以没能用。我也在考虑修改 d 字典的结构来实现我的目标。此外,也许它不必是字典。

谢谢。

【问题讨论】:

你说它不一定是字典——字典中数据的来源是什么?还是您指的是在将 dict 转换为数据框之前将其转换为中间结构? 数据源来自二进制文件。它被转换为字典,以便于访问和快速查询。理想情况下,它仍然是一个命令。我想说的是,我可以更改将二进制文件更改为 dict 的代码,并使用对 pandas 更友好的东西。转换 dict 似乎效率低下。 【参考方案1】:

关于 SO(here、here 或 here)已经有多个类似问题的答案。这些解决方案也可以适应这个问题。但是,它们都不是真正通用的,可以在任意字典上运行。所以我决定写一些更通用的东西。

这是一个可以在任何字典上运行的函数。 dict 的任何元素都必须具有相同数量的级别(深度),否则它很可能会提升。

def frame_from_dict(dic, depth=None, **kwargs):
    def get_dict_depth(dic):
        if not isinstance(dic, dict):
            return 0
        for v in dic.values():
            return get_dict_depth(v) + 1

    if depth is None:
        depth = get_dict_depth(dic)

    if depth == 0:
        return pd.Series(dic)
    elif depth > 0:
        keys = []
        vals = []
        for k, v in dic.items():
            keys.append(k)
            vals.append(frame_from_dict(v, depth - 1))
        try:
            keys = sorted(keys)
        except TypeError:
            # unorderable types
            pass
        return pd.concat(vals, axis=1, keys=keys, **kwargs)

    raise ValueError("depth should be a nonnegative integer or None")

为了一般性,我从这个问题中牺牲了一个命名元组案例。但如果需要,可以对其进行调整。

在这种特殊情况下,可以如下应用:

df = frame_from_dict(d, names=['Subcase', 'Step', 'ID']).T
df.columns = ['x', 'y']
df
Out[115]: 
                       x        y
Subcase Step ID                  
1       NaN  1       1.0      5.0
             2       4.0      8.0
2       NaN  1   45324.0  24338.0
             2      45.0     38.0

【讨论】:

谢谢你,它就像一个魅力。我知道这个解决方案,但我特别想避免使用 for 循环,因为我可以控制字典的定义。我决定将键扁平化为一个元组。请参阅下面的解决方案 @snowleopard 我明白了。您是否有将嵌套字典的键展平为元组的一般方法?我认为这是问题的症结所在。 是的,你是对的,但我是从二进制文件创建字典,所以我可以控制字典的定义方式。 啊,好吧。直接创建元组是一种更好的方法。【参考方案2】:

我决定将键扁平化为一个元组(使用 pandas 0.18.1 测试):

In [5]: from collections import namedtuple

In [6]: Point = namedtuple('Point', 'x y')

In [11]: from collections import OrderedDict

In [14]: d=OrderedDict()

In [15]: d[(1,None,1)]=Point(x=1.0, y=5.0)

In [16]: d[(1,None,2)]=Point(x=4.0, y=8.0)

In [17]: d[(2,None,1)]=Point(x=45324.0, y=24338.0)

In [18]: d[(2,None,2)]=Point(x=45.0, y=38.0)

最后,

In [7]: import pandas as pd

In [8]: df=pd.DataFrame(d.values(),  index=pd.MultiIndex.from_tuples(d.keys(), names=['Subcase','Step','ID']))


In [9]:df
Out[9]: 
                       x        y
Subcase Step ID                  
1       NaN  1       1.0      5.0
             2       4.0      8.0
2       NaN  1   45324.0  24338.0
             2      45.0     38.0

【讨论】:

以上是关于将命名元组嵌套字典到熊猫数据框的主要内容,如果未能解决你的问题,请参考以下文章

如何将包含元组列表的字典中的字典转换为熊猫数据框

将元组字典拆分为熊猫数据框

从以元组为键的字典中获取熊猫数据框

将带有元组作为键的嵌套字典转换为数据框

解压熊猫数据框字典 (1,1)

如何将嵌套字典转换为 Python 元组?