pandas - 根据满足条件的列合并行

Posted

技术标签:

【中文标题】pandas - 根据满足条件的列合并行【英文标题】:pandas - merge rows based on column meeting a condition 【发布时间】:2018-02-13 23:55:03 【问题描述】:

我是 pandas 的新手,我不知道最好的方法。

我有两个文件放在两个不同的数据框中:

>> frame1.head()
Out[64]:

    Date and Time           Sample  Unnamed: 2
0   05/18/2017 08:38:37:490 163.7   NaN
1   05/18/2017 08:39:37:490 164.5   NaN
2   05/18/2017 08:40:37:490 148.7   NaN
3   05/18/2017 08:41:37:490 111.2   NaN
4   05/18/2017 08:42:37:490 83.6    NaN


>>frame2.head()
Out[66]:
Date and Time               Sample  Unnamed: 2
0   05/18/2017 08:38:38:490 7.5 NaN
1   05/18/2017 08:39:38:490 7.5 NaN
2   05/18/2017 08:40:38:490 7.5 NaN
3   05/18/2017 08:41:38:490 7.5 NaN
4   05/18/2017 08:42:38:490 7.5 NaN

我需要将第 1 帧中的任何行与第 2 帧中的任何行“合并”,它们彼此相距一秒钟。

例如, 第 1 帧的这一行:

0   05/18/2017 08:38:37:490 163.7   NaN

在从第 2 帧开始的这一行的一秒内:

0   05/18/2017 08:38:38:490 7.5 NaN

所以当它们“合并”时,输出应该是这样的:

0   05/18/2017 08:38:37:490 163.7 7.5 NaN NaN

换句话说,一行的时间被另一行替换了,剩下的所有列都只是追加了

我想出的最接近的方法是:

    d3 = pd.merge(frame1, frame2, on='Date and Time (MM/DD/YYYY HH:MM:SS:sss)', how='outer')

>>d3.head()
    Date and Time           Sample_x    Unnamed: 2_x    Sample_y    Unnamed: 2_y
0   05/18/2017 08:38:37:490 163.7   NaN NaN NaN
1   05/18/2017 08:39:37:490 164.5   NaN NaN NaN
2   05/18/2017 08:40:37:490 148.7   NaN NaN NaN
3   05/18/2017 08:41:37:490 111.2   NaN NaN NaN
4   05/18/2017 08:42:37:490 83.6    NaN NaN NaN

但是,这不是条件合并.. .如果它们彼此在一秒钟内,我需要合并,而不是完全相同。

我知道我可以将时间与以下内容进行比较:

def compare_time(temp, sec=1):
   return abs(current - temp) <= datetime.timedelta(seconds=sec)

然后使用 .apply() 或其他东西...但我不知道如何将所有这些拼凑在一起

编辑:看起来 pd.merge_asof 做得很好,但我还需要保留最终帧中未匹配/合并的行

编辑 2:

df1 = pd.DataFrame( 'datetime':pd.date_range('1-1-2017', periods= 4,freq='s'),
                     'sample':  np.arange(4)+100 )
df2 = pd.DataFrame( 'datetime':pd.date_range('1-1-2017', periods=4,freq='300ms'),
                     'sample':  np.arange(4) )

blah = pd.merge_asof( df2, df1, on='datetime', tolerance=pd.Timedelta('1s') )  \
    .append(df1.rename(columns='sample':'sample_x')).drop_duplicates('sample_x')
blah

返回:

    datetime    sample_x    sample_y
0   2017-01-01 00:00:00.000 0   100.0
1   2017-01-01 00:00:00.300 1   100.0
2   2017-01-01 00:00:00.600 2   100.0
3   2017-01-01 00:00:00.900 3   100.0
0   2017-01-01 00:00:00.000 100 NaN
1   2017-01-01 00:00:01.000 101 NaN
2   2017-01-01 00:00:02.000 102 NaN
3   2017-01-01 00:00:03.000 103 NaN

请注意,它保留了原始行索引(零列出了两次)..

【问题讨论】:

可以查看pd.merge_asofpandas.pydata.org/pandas-docs/stable/generated/… 每个数据框的行大小有多大? 如果r1的时间戳05/18/2017 08:38:37:490,r2的时间戳为05/18/2017 08:39:36:490,r3的时间戳为05/18/2017 08:40:35:490,如何合并? r1 和 r2 在一秒内,r2 和 r3 也在一秒内。但 r1 和 r3 不是。 【参考方案1】:

您可以按照@Wen 的建议使用merge_asof,但请务必为tolerance 指定可选值。还要考虑为匹配的direction 设置选项值,可以是“向后”(默认)、“最近”或“向前”。

pd.merge_asof( df1, df2, on='datetime', tolerance=pd.Timedelta('1s') )

这里有一个更长的示例数据解释(注意我只是创建新的示例数据,因为我只能看到你的实际数据的前几行):

df1 = pd.DataFrame( 'datetime':pd.date_range('1-1-2017', periods= 4,freq='s'),
                     'sample':  np.arange(4)+100 )
df2 = pd.DataFrame( 'datetime':pd.date_range('1-1-2017', periods=4,freq='300ms'),
                     'sample':  np.arange(4) )

df1
Out[208]: 
             datetime  sample
0 2017-01-01 00:00:00     100
1 2017-01-01 00:00:01     101
2 2017-01-01 00:00:02     102
3 2017-01-01 00:00:03     103

df2
Out[209]: 
                 datetime  sample
0 2017-01-01 00:00:00.000       0
1 2017-01-01 00:00:00.300       1
2 2017-01-01 00:00:00.600       2
3 2017-01-01 00:00:00.900       3

pd.merge_asof( df1, df2, on='datetime', tolerance=pd.Timedelta('1s') )
Out[210]: 
             datetime  sample_x  sample_y
0 2017-01-01 00:00:00       100       0.0
1 2017-01-01 00:00:01       101       3.0
2 2017-01-01 00:00:02       102       NaN
3 2017-01-01 00:00:03       103       NaN

请注意,merge_asof 进行了左连接,因此您可以通过更改 df1 和 df2 的顺序得到不同的答案:

pd.merge_asof( df2, df1, on='datetime', tolerance=pd.Timedelta('1s') )
Out[218]: 
                 datetime  sample_x  sample_y
0 2017-01-01 00:00:00.000         0       100
1 2017-01-01 00:00:00.300         1       100
2 2017-01-01 00:00:00.600         2       100
3 2017-01-01 00:00:00.900         3       100

编辑添加:文档说merge_asof 设计了左连接,但它似乎与真正的左连接不同,因为它排除了左数据框中不匹配的行.要解决此问题,您可以执行以下操作:

pd.merge_asof( df1, df2, on='datetime', tolerance=pd.Timedelta('1s') )  \
    .append(df1.rename(columns='sample':'sample_x')).drop_duplicates('sample_x')
Out[236]: 
             datetime  sample_x  sample_y
0 2017-01-01 00:00:00       100       0.0
1 2017-01-01 00:00:01       101       3.0
2 2017-01-01 00:00:02       102       NaN
3 2017-01-01 00:00:03       103       NaN

请注意,您可能需要根据您是否具有唯一索引和/或唯一列来调整 drop_duplicates

【讨论】:

如何同时保留 df2.2 和 df2.3 行?结果数据框中似乎缺少以 .6 结尾的时间。 如何保留未合并的行?请注意,在合并结果中,样本值 101、102、103 缺失 blah = pd.merge_asof( df2, df1, on='datetime', tolerance=pd.Timedelta('1s') ) \ .append(df1.rename(columns='sample':'sample_x')).drop_duplicates('sample_x') (d2, d1 的倒序) 看起来像我想要的那样,但它有这种奇怪的效果,有多个索引为零的行.. (我将它发布在编辑_ @JillRussek 抱歉没有完全按照。我看到您在合并中切换了 df2 和 df1 的顺序,因此您可能需要将 sample_x 切换为 sample_y 但我无法完全确定您想要的最终输出

以上是关于pandas - 根据满足条件的列合并行的主要内容,如果未能解决你的问题,请参考以下文章

Pandas:如果特定列满足特定条件,则选择行

pandas基于组合条件对数据列进行判断并将满足条件的数据行全部更新为某一个固定值(updating rows based on column values)

pandas使用query函数基于组合判断条件删除dataframe中的不满足条件的数据行(removing rows based on multiple dataframe column value

在 pandas df 中给出唯一键,其中行满足具有公共键的条件

根据 if 条件合并和求和两个 pandas 行

pandas基于组合逻辑筛选dataframe中两个数据列都满足条件的数据行(两个指定数据列的值都大于零的数据行)