Pandas 合并、缩放和旋转长格式和宽格式数据帧
Posted
技术标签:
【中文标题】Pandas 合并、缩放和旋转长格式和宽格式数据帧【英文标题】:Pandas merge, scale, and pivot long-form and wide-form dataframes 【发布时间】:2018-03-11 12:52:00 【问题描述】:我有两个需要合并的 Pandas 数据框。第一个是一个长格式数据集,其中包含我在不同数量间断的商品的销售价格。价格随着购买的零件数量的增加而下降。
数据框1
PART# MY_QTY MY_PRC
Item1 1 $20
Item1 10 $18
Item1 20 $17
Item2 1 $120
Item2 30 $100
Item2 50 $95
第二个是包含多个供应商的数量细分和销售价格的宽格式数据集。对于下面的商品 1,如果我从 Vend1 购买 1 件,我支付 10 美元,4 件仍然是 10 美元,5 件是 8 美元,等等。数量中断的数量因商品和供应商而异,并且并非所有供应商都出售所有商品。
Dataframe2
PART# VEND# QTY1 PRC1 QTY2 PRC2 QTY3 PRC3
Item1 Vend1 1 $10 5 $8 15 $7
Item1 Vend2 1 $15 11 $12 30 $11
Item1 Vend3 1 $20 10 $18
Item2 Vend1 1 $75 20 $60 30 $55
Item2 Vend2 1 $80 12 $70
我想合并数据框,以便我可以将我的每个数量中断的销售价格与相同数量的供应商成本进行比较。最终的数据框将在 PART# 上具有左合并的形状,其中 VEND# 以列为中心。
我遇到困难的部分是根据 MY_QTY 获取正确的供应商价格。我应该能够阅读一行并查看各方对给定数量的物品收取的费用。预期输出如下。
结果数据框
PART# MY_QTY MY_PRC VEND1 VEND2 VEND3
Item1 1 $20 $10 $15 $20
Item1 10 $18 $8 $15 $18
Item1 20 $17 $7 $12 $18
Item2 1 $120 $75 $80
Item2 30 $100 $55 $70
Item2 50 $95 $55 $70
编辑
人们似乎对 Dataframe2 感到困惑。此数据帧按行读取。第一行值显示 Vend1 出售的 Item1 的价格。这一排从 1 件(1 件)到 2 件(5 件)价格为 PRC1(10 美元),然后从 2 件(5 件)到 3 件(15 件)价格为 PRC2(8 美元)。在请求的数量达到下一个数量突破之前,价格保持不变。
Say Mama's Farm Stand 以每个 1 美元的价格出售苹果。如果您购买 5 个苹果,那么每个苹果的价格将降至 0.75 美元。如果您购买 15 个苹果,那么价格将再次降至 0.50 美元。此示例的数据框如下所示。
PART# VEND# QTY1 PRC1 QTY2 PRC2 QTY3 PRC3
Apple Mama 1 $1 5 $.75 15 $.5
【问题讨论】:
第二行MY_QTY
是10
,VEND1
8
怎么样,10个没价格呢
可以分享您当前的代码以及您遇到了什么错误?
第二个数据帧中的QTY1
是否与结果数据帧交互?
@Bharathshetty 我添加了一个编辑来阐明 Dataframe2 的工作原理。
@MattR QTY1 是供应商将销售的最小数量。在我的示例中,我为每个 QTY1 值使用 1,因此它实际上没有任何交互,但在我的实际数据中,一些供应商确实有更高的最小值,在这种情况下会有交互。如果 MY_QTY
【参考方案1】:
dfs = []
for val in ['PRC1','PRC2','PRC3']:
temp = pd.pivot_table(df2, index='PART#', columns='VEND#', values=val).reset_index()
dfs.append(temp)
pivot = pd.concat(dfs, axis=0)
pivot.sort_values('PART#',inplace=True)
pivot.reset_index(inplace=True)
df1.join(pivot,lsuffix='PART#')
【讨论】:
这是有效的,因为 dfs 的长度是相同的,所以我们可以加入索引,如果你的实际数据集不是这种情况,我会相应地编辑我的答案.【参考方案2】:这是一个可行的示例,说明您可以如何做到这一点。这绝不是有效的。其他人似乎正在尝试加入这两个数据集,但听起来您想要的实际上是获得每个供应商/零件组合的最大 QTY <= MY_QTY
的价格。
import pandas as pd
from io import StringIO
import numpy as np
df1_t = StringIO("""PART#,MY_QTY,MY_PRC
Item1,1,$20
Item1,10,$18
Item1,20,$17
Item2,1,$120
Item2,30,$100
Item2,50,$95
""")
df2_t = StringIO("""PART#,VEND#,QTY1,PRC1,QTY2,PRC2,QTY3,PRC3
Item1,Vend1,1,$10,5,$8,15,$7
Item1,Vend2,1,$15,11,$12,30,$11
Item1,Vend3,1,$20,10,$18
Item2,Vend1,1,$75,20,$60,30,$55
Item2,Vend2,1,$80,12,$70
""")
df1 = pd.read_csv(df1_t)
df2 = pd.read_csv(df2_t)
vendors = df2['VEND#'].unique()
items = df2['PART#'].unique()
# for the specific item and vendor in the rows of Dataframe1 (df1), find the
# largest QTY for that that's less than MY_QTY for the same combination of item
# and vendor in df2
def find_price(row, vendor, df2):
item = row['PART#']
quantity = row['MY_QTY']
# get the row with that specific item / vendor combo
prices = df2[(df2['PART#']==item) & (df2['VEND#']==vendor)]
# reshape a little
prices = pd.wide_to_long(prices, ['QTY','PRC'], i='VEND#', j='v').set_index('QTY',append=True).reset_index().drop('v',axis=1)
# only get where QTY <= MY_QTY
prices = prices[prices['QTY']<=quantity]
if prices.empty:
return np.nan
else:
return prices.loc[prices['QTY'].argmax(),:]['PRC']
# iterate throw the vendors, and use find_price to get the corresponding price
for vendor in vendors:
df1[vendor] = df1.apply(lambda row: find_price(row, vendor, df2),axis=1)
print(df1)
# PART# MY_QTY MY_PRC Vend1 Vend2 Vend3
#0 Item1 1 $20 $10 $15 $20
#1 Item1 10 $18 $8 $15 $18
#2 Item1 20 $17 $7 $12 $18
#3 Item2 1 $120 $75 $80 NaN
#4 Item2 30 $100 $55 $70 NaN
#5 Item2 50 $95 $55 $70 NaN
【讨论】:
非常感谢您的回复。我相信这会得到正确的输出,实际上我在第一次运行该问题时编写了一个非常相似的迭代方法。然而,我正在处理一个大型数据集,而这和我的原始数据都需要大量时间来运行。希望尽量避免迭代。 Pandas merge_asof 可能适用于此:pandas.pydata.org/pandas-docs/stable/generated/…【参考方案3】:这是另一种仅在供应商上使用循环但需要对数据进行排序的方式
import pandas as pd
from io import StringIO
import numpy as np
df1_t = StringIO("""PART#,MY_QTY,MY_PRC
Item1,1,$20
Item1,10,$18
Item1,20,$17
Item2,1,$120
Item2,30,$100
Item2,50,$95
""")
df2_t = StringIO("""PART#,VEND#,QTY1,PRC1,QTY2,PRC2,QTY3,PRC3
Item1,Vend1,1,$10,5,$8,15,$7
Item1,Vend2,1,$15,11,$12,30,$11
Item1,Vend3,1,$20,10,$18
Item2,Vend1,1,$75,20,$60,30,$55
Item2,Vend2,1,$80,12,$70
""")
df1 = pd.read_csv(df1_t)
df2 = pd.read_csv(df2_t)
df2 = pd.wide_to_long(df2, ['QTY','PRC'], i='VEND#', j='v').set_index('QTY',append=True).reset_index().drop('v',
axis=1)
df1['MY_QTY'] = df1['MY_QTY'].astype(float)
df1 = df1.sort_values(by="MY_QTY")
df2 = df2.sort_values(by="QTY")
df2 = df2.dropna(axis=0, how='any')
vendors = df2['VEND#'].unique()
df3=df1
for vendor in vendors:
df3 = pd.merge_asof(df3, df2[df2['VEND#']==vendor], left_on="MY_QTY", right_on="QTY", by='PART#',suffixes=('', '_y'))
to_drop = [x for x in df3 if x.startswith('VEND')]
to_drop = to_drop + [x for x in df3 if x.startswith('QTY')]
df3.drop(to_drop, axis=1, inplace=True)
df3 = df3.rename(columns=prc : vendor for prc, vendor in zip([x for x in df3 if x.startswith('PRC')], vendors))
print(df3)
# PART# MY_QTY MY_PRC Vend1 Vend3 Vend3
#0 Item1 1.0 $20 $10 $15 $20
#1 Item2 1.0 $120 $75 $80 NaN
#2 Item1 10.0 $18 $8 $15 $18
#3 Item1 20.0 $17 $7 $12 $18
#4 Item2 30.0 $100 $55 $70 NaN
#5 Item2 50.0 $95 $55 $70 NaN
【讨论】:
这在大型数据集上非常有效。感谢基思的帮助。非常感谢。以上是关于Pandas 合并、缩放和旋转长格式和宽格式数据帧的主要内容,如果未能解决你的问题,请参考以下文章