Pandas 合并、缩放和旋转长格式和宽格式数据帧

Posted

技术标签:

【中文标题】Pandas 合并、缩放和旋转长格式和宽格式数据帧【英文标题】:Pandas merge, scale, and pivot long-form and wide-form dataframes 【发布时间】:2018-03-11 12:52:00 【问题描述】:

我有两个需要合并的 Pandas 数据框。第一个是一个长格式数据集,其中包含我在不同数量间断的商品的销售价格。价格随着购买的零件数量的增加而下降。

数据框1

PART#    MY_QTY   MY_PRC
Item1    1        $20
Item1    10       $18
Item1    20       $17
Item2    1        $120
Item2    30       $100
Item2    50       $95

第二个是包含多个供应商的数量细分和销售价格的宽格式数据集。对于下面的商品 1,如果我从 Vend1 购买 1 件,我支付 10 美元,4 件仍然是 10 美元,5 件是 8 美元,等等。数量中断的数量因商品和供应商而异,并且并非所有供应商都出售所有商品。

Dataframe2

PART#    VEND#   QTY1  PRC1   QTY2   PRC2   QTY3   PRC3
Item1    Vend1    1    $10     5     $8      15    $7
Item1    Vend2    1    $15     11    $12     30    $11
Item1    Vend3    1    $20     10    $18
Item2    Vend1    1    $75     20    $60     30    $55
Item2    Vend2    1    $80     12    $70

我想合并数据框,以便我可以将我的每个数量中断的销售价格与相同数量的供应商成本进行比较。最终的数据框将在 PART# 上具有左合并的形状,其中 VEND# 以列为中心。

我遇到困难的部分是根据 MY_QTY 获取正确的供应商价格。我应该能够阅读一行并查看各方对给定数量的物品收取的费用。预期输出如下。

结果数据框

PART#    MY_QTY   MY_PRC    VEND1    VEND2    VEND3
Item1    1        $20       $10      $15      $20
Item1    10       $18       $8       $15      $18
Item1    20       $17       $7       $12      $18
Item2    1        $120      $75      $80
Item2    30       $100      $55      $70
Item2    50       $95       $55      $70

编辑

人们似乎对 Dataframe2 感到困惑。此数据帧按行读取。第一行值显示 Vend1 出售的 Item1 的价格。这一排从 1 件(1 件)到 2 件(5 件)价格为 PRC1(10 美元),然后从 2 件(5 件)到 3 件(15 件)价格为 PRC2(8 美元)。在请求的数量达到下一个数量突破之前,价格保持不变。

Say Mama's Farm Stand 以每个 1 美元的价格出售苹果。如果您购买 5 个苹果,那么每个苹果的价格将降至 0.75 美元。如果您购买 15 个苹果,那么价格将再次降至 0.50 美元。此示例的数据框如下所示。

PART#    VEND#   QTY1  PRC1   QTY2   PRC2   QTY3   PRC3
Apple    Mama    1     $1     5      $.75   15     $.5

【问题讨论】:

第二行MY_QTY10VEND18怎么样,10个没价格呢 可以分享您当前的代码以及您遇到了什么错误? 第二个数据帧中的QTY1 是否与结果数据帧交互? @Bharathshetty 我添加了一个编辑来阐明 Dataframe2 的工作原理。 @MattR QTY1 是供应商将销售的最小数量。在我的示例中,我为每个 QTY1 值使用 1,因此它实际上没有任何交互,但在我的实际数据中,一些供应商确实有更高的最小值,在这种情况下会有交互。如果 MY_QTY 【参考方案1】:
dfs = []
for val in ['PRC1','PRC2','PRC3']:    
    temp = pd.pivot_table(df2, index='PART#', columns='VEND#', values=val).reset_index()
    dfs.append(temp)
pivot = pd.concat(dfs, axis=0)
pivot.sort_values('PART#',inplace=True)
pivot.reset_index(inplace=True)
df1.join(pivot,lsuffix='PART#')

【讨论】:

这是有效的,因为 dfs 的长度是相同的,所以我们可以加入索引,如果你的实际数据集不是这种情况,我会相应地编辑我的答案.【参考方案2】:

这是一个可行的示例,说明您可以如何做到这一点。这绝不是有效的。其他人似乎正在尝试加入这两个数据集,但听起来您想要的实际上是获得每个供应商/零件组合的最大 QTY <= MY_QTY 的价格。

import pandas as pd
from io import StringIO
import numpy as np

df1_t = StringIO("""PART#,MY_QTY,MY_PRC
Item1,1,$20
Item1,10,$18
Item1,20,$17
Item2,1,$120
Item2,30,$100
Item2,50,$95
""")

df2_t = StringIO("""PART#,VEND#,QTY1,PRC1,QTY2,PRC2,QTY3,PRC3
Item1,Vend1,1,$10,5,$8,15,$7
Item1,Vend2,1,$15,11,$12,30,$11
Item1,Vend3,1,$20,10,$18
Item2,Vend1,1,$75,20,$60,30,$55
Item2,Vend2,1,$80,12,$70
""")

df1 = pd.read_csv(df1_t)
df2 = pd.read_csv(df2_t)

vendors = df2['VEND#'].unique()
items = df2['PART#'].unique()

# for the specific item and vendor in the rows of Dataframe1 (df1), find the 
# largest QTY for that that's less than MY_QTY for the same combination of item
# and vendor in df2
def find_price(row, vendor, df2):
    item = row['PART#']
    quantity = row['MY_QTY']
    # get the row with that specific item / vendor combo
    prices = df2[(df2['PART#']==item) & (df2['VEND#']==vendor)]
    # reshape a little
    prices = pd.wide_to_long(prices, ['QTY','PRC'], i='VEND#', j='v').set_index('QTY',append=True).reset_index().drop('v',axis=1)
    # only get where QTY <= MY_QTY
    prices = prices[prices['QTY']<=quantity]
    if prices.empty:
        return np.nan
    else:
        return prices.loc[prices['QTY'].argmax(),:]['PRC']


# iterate throw the vendors, and use find_price to get the corresponding price
for vendor in vendors:
    df1[vendor] = df1.apply(lambda row: find_price(row, vendor, df2),axis=1)

print(df1)
#   PART#  MY_QTY MY_PRC Vend1 Vend2 Vend3
#0  Item1       1    $20   $10   $15   $20
#1  Item1      10    $18    $8   $15   $18
#2  Item1      20    $17    $7   $12   $18
#3  Item2       1   $120   $75   $80   NaN
#4  Item2      30   $100   $55   $70   NaN
#5  Item2      50    $95   $55   $70   NaN

【讨论】:

非常感谢您的回复。我相信这会得到正确的输出,实际上我在第一次运行该问题时编写了一个非常相似的迭代方法。然而,我正在处理一个大型数据集,而这和我的原始数据都需要大量时间来运行。希望尽量避免迭代。 Pandas merge_asof 可能适用于此:pandas.pydata.org/pandas-docs/stable/generated/…【参考方案3】:

这是另一种仅在供应商上使用循环但需要对数据进行排序的方式

import pandas as pd
from io import StringIO
import numpy as np

df1_t = StringIO("""PART#,MY_QTY,MY_PRC
Item1,1,$20
Item1,10,$18
Item1,20,$17
Item2,1,$120
Item2,30,$100
Item2,50,$95
""")

df2_t = StringIO("""PART#,VEND#,QTY1,PRC1,QTY2,PRC2,QTY3,PRC3
Item1,Vend1,1,$10,5,$8,15,$7
Item1,Vend2,1,$15,11,$12,30,$11
Item1,Vend3,1,$20,10,$18
Item2,Vend1,1,$75,20,$60,30,$55
Item2,Vend2,1,$80,12,$70
""")

df1 = pd.read_csv(df1_t)
df2 = pd.read_csv(df2_t)


df2 = pd.wide_to_long(df2, ['QTY','PRC'], i='VEND#', j='v').set_index('QTY',append=True).reset_index().drop('v',
    axis=1)
df1['MY_QTY'] = df1['MY_QTY'].astype(float)
df1 = df1.sort_values(by="MY_QTY")
df2 = df2.sort_values(by="QTY")
df2 = df2.dropna(axis=0, how='any')

vendors = df2['VEND#'].unique()
df3=df1
for vendor in vendors:
    df3 = pd.merge_asof(df3, df2[df2['VEND#']==vendor], left_on="MY_QTY", right_on="QTY", by='PART#',suffixes=('', '_y'))

to_drop = [x for x in df3 if x.startswith('VEND')]
to_drop = to_drop + [x for x in df3 if x.startswith('QTY')]
df3.drop(to_drop, axis=1, inplace=True)
df3 = df3.rename(columns=prc : vendor for prc, vendor in zip([x for x in df3 if x.startswith('PRC')], vendors))

print(df3)
#     PART#  MY_QTY MY_PRC Vend1 Vend3 Vend3
#0  Item1     1.0    $20   $10   $15   $20
#1  Item2     1.0   $120   $75   $80   NaN
#2  Item1    10.0    $18    $8   $15   $18
#3  Item1    20.0    $17    $7   $12   $18
#4  Item2    30.0   $100   $55   $70   NaN
#5  Item2    50.0    $95   $55   $70   NaN

【讨论】:

这在大型数据集上非常有效。感谢基思的帮助。非常感谢。

以上是关于Pandas 合并、缩放和旋转长格式和宽格式数据帧的主要内容,如果未能解决你的问题,请参考以下文章

Plotly:如何使用长格式或宽格式的 pandas 数据框制作线图?

将 pandas 数据帧旋转为具有多层的长格式

Pandas - 转换数据帧格式

从长格式数据帧构建节点和边

组合不同长度的长格式数据帧并转换为宽格式

如何在支持多种数据格式的 Pandas 中合并日期?