Pandas Dataframe：将对角线子帧减少为单行或如何逐个填充数据帧

Posted 2023-02-23

技术标签:

【中文标题】Pandas Dataframe：将对角线子帧减少为单行或如何逐个填充数据帧【英文标题】：Pandas Dataframe: Reduce Diagonal Sub-Frame to Single Row or How to Fill a Dataframe Piece by Piece 【发布时间】：2014-07-06 20:02:53 【问题描述】：

在客户端/服务器应用程序中，从服务器请求数据，并使用请求 id 映射传入的回复：

--> Request data for item i using request_id 1
--> Request data for item j using request_id 2
:
<-- Data element i.p for request_id1
<-- Data element j.p for request_id2
<-- Data element i.q for request_id1
<-- Data element j.q for request_id2
<-- Data element i.r for request_id1
<-- Data element j.r for request_id2

传入的块被添加到字典列表中，由以下代码模拟：

import pandas
import random

md = list()
md.append('request_id': 1, 'p': random.random())
md.append('request_id': 2, 'p': random.random())
md.append('request_id': 1, 'q': random.random())
md.append('request_id': 2, 'q': random.random())
md.append('request_id': 1, 'r': random.random())
md.append('request_id': 2, 'r': random.random())

df = pandas.DataFrame(md).set_index('request_id')

print df

从列表 md 创建数据框时，每行只有一列有值，其他所有列都是 NaN。上面的代码产生以下结果：

                   p         q         r
request_id                              
1           0.955755       NaN       NaN
2           0.920858       NaN       NaN
1                NaN  0.583634       NaN
2                NaN  0.456644       NaN
1                NaN       NaN  0.198991
2                NaN       NaN  0.774762

[6 rows x 3 columns]

如何将 df 减少到每个 request_id 仅一行？我真正需要的是以下内容：

                   p         q         r
request_id                              
1           0.955755  0.583634  0.198991
2           0.920858  0.456644  0.774762

[2 rows x 3 columns]

块没有特定的顺序进入，并且对于每个请求，都会收到请求结束消息。保证每个块只发送一次（如果有的话），因此每行只有一个（或零）数据元素不是 NaN。

一个典型的应用是期权链的异步数据检索，其中包含每个单一期权的各种数据元素，例如价格、IV、Delta、Gamma、Theta、Vega。

【问题讨论】：

【参考方案1】：

也许不是使用字典列表，而是将md 设为字典的字典：

import pandas
import random
import collections

md = collections.defaultdict(dict)
md['p'][1] = random.random()
md['p'][2] = random.random()
md['q'][2] = random.random()
md['q'][1] = random.random()
md['r'][1] = random.random()
md['r'][2] = random.random()

df = pandas.DataFrame(md)
df.index.name = 'request_id'

print df

产生类似的东西

                   p         q         r
request_id                              
1           0.127898  0.565351  0.966917
2           0.983144  0.593652  0.617639

[2 rows x 3 columns]

虽然创建一个大的DataFrame效率低下，只是为了以后缩小它，如果你必须使用一个dicts列表，你可以像这样组合行：

import pandas as pd
import random

md = list()
md.append('request_id': 1, 'p': random.random())
md.append('request_id': 2, 'p': random.random())
md.append('request_id': 1, 'q': random.random())
md.append('request_id': 2, 'q': random.random())
md.append('request_id': 1, 'r': random.random())
md.append('request_id': 2, 'r': random.random())
df = pd.DataFrame(md).set_index('request_id')
df = pd.concat([df[col].dropna() for col in df.columns], axis=1)
print(df)

这会从每一列中删除 NaN，然后使用 pd.concat 将 Series 列表合并到一个 DataFrame 中。

【讨论】：

您使用defaultdict(dict) 的提示非常棒，而且效果很好。我没有考虑过这一点，也从未使用过defaultdict 子类。感谢您花时间查看我的代码 sn-p 并为我指明正确的方向！

以上是关于Pandas Dataframe：将对角线子帧减少为单行或如何逐个填充数据帧的主要内容，如果未能解决你的问题，请参考以下文章