根据前一行值创建一个新列并删除当前行

Posted

技术标签:

【中文标题】根据前一行值创建一个新列并删除当前行【英文标题】:Create a new column based on previous row value and delete the current row 【发布时间】:2019-11-10 22:32:51 【问题描述】:

我有一个输入数据帧,可以从下面给出的代码生成

  df = pd.DataFrame('subjectID' :[1,1,2,2],'keys': 
  ['H1Date','H1','H2Date','H2'],'Values': 
  ['10/30/2006',4,'8/21/2006',6.4])

输入数据框如下所示

这就是我所做的

s1 = df.set_index('subjectID').stack().reset_index()

s1.rename(columns=0:'values', 
             inplace=True)
d1 = s1[s1['level_1'].str.contains('Date')]
d2 = s1[~s1['level_1'].str.contains('Date')]

d1['g'] = d1.groupby('subjectID').cumcount()
d2['g'] = d2.groupby('subjectID').cumcount()

d3 = pd.merge(d1,d2,on=["subjectID", 'g'],how='left').drop(['g','level_1_x','level_1_y'], axis=1)

虽然可行,但恐怕这可能不是最好的方法。因为我们可能有超过 200 列和 50k 记录。进一步改进我的代码的任何帮助都非常有帮助。

我希望我的输出数据框如下所示

【问题讨论】:

【参考方案1】:

可能是这样的:

s=df.groupby(df['keys'].str.contains('Date').cumsum()).cumcount()+1

final=(df.assign(s=s.astype(str)).set_index(['subjectID','s']).
       unstack().sort_values(by='s',axis=1))
final.columns=final.columns.map(''.join)
print(final)

           keys1     Values1 keys2 Values2
subjectID                                  
1          H1Date  10/30/2006    H1       4
2          H2Date   8/21/2006    H2     6.4

【讨论】:

以上是关于根据前一行值创建一个新列并删除当前行的主要内容,如果未能解决你的问题,请参考以下文章

如何将时间戳字段转换为 int8?或者只是删除该列并创建一个新列?

如何删除一列并创建一个新列而不是在 EF Core 中重命名?

迭代具有固定行的列

Apache Beam 根据前一行的值更新当前行的值

迭代数据框并根据一列的值在具有前一行值的新列中执行操作

使用滞后函数访问当前行值