熊猫 - 按时间接近加入
Posted
技术标签:
【中文标题】熊猫 - 按时间接近加入【英文标题】:Pandas - join by time proximity 【发布时间】:2015-12-22 11:14:25 【问题描述】:我有 2 个数据框,left_df
和 right_df
,每个数据框都有一个对应于日期时间的列。我想以这样的方式加入他们,对于left_df
中的每一行R
,我在right_df
的所有行中找到right_df
中最接近R
的行,然后放入他们在一起。我不知道是来自left_df
还是来自right_df
的行排在第一位。
下面给出一个例子:
left_df =
left_dt left_flag
0 2014-08-23 07:57:03.827516 True
1 2014-08-23 09:27:12.831126 False
2 2014-08-23 11:55:27.551029 True
3 2014-08-23 16:11:33.511049 True
right_df =
right dt right_flag
0 2014-08-23 07:12:52.80587 True
1 2014-08-23 15:12:34.815087 True
desired output_df =
left_dt left_flag right dt right_flag
0 2014-08-23 07:57:03.827516 True 2015-08-23 07:12:52.80587 True
1 2014-08-23 09:27:12.831126 False 2015-08-23 07:12:52.80587 True
2 2014-08-23 11:55:27.551029 True 2015-08-23 15:12:34.815087 True
3 2014-08-23 16:11:33.511049 True 2015-08-23 15:12:34.815087 True
【问题讨论】:
你好,你看到我的回答了吗?有用吗? 我还没有机会尝试。我会尽快回复您。 【参考方案1】:我不确定它是否适用于所有情况。但我认为这可以成为一个解决方案。
# Test data
left_df = pd.DataFrame('left_dt': ['2014-08-23 07:57:03.827516',
'2014-08-23 09:27:12.831126',
'2014-08-23 11:55:27.551029',
'2014-08-23 16:11:33.511049'],
'left_flag': [True, False, True, True])
left_df['left_dt'] = pd.to_datetime(left_df['left_dt'])
right_df = pd.DataFrame(
'right_dt': ['2014-08-23 07:12:52.80587', '2014-08-23 15:12:34.815087'],
'right_flag': [True, True])
right_df['right_dt'] = pd.to_datetime(right_df['right_dt'])
# Setting the date as the index for each DataFrame
left_df.set_index('left_dt', drop=False, inplace=True)
right_df.set_index('right_dt', drop=False, inplace=True)
# Merging them and filling the gaps
output_df = left_df.join(right_df, how='outer').sort_index()
output_df.fillna(method='ffill', inplace=True)
# Droping unwanted values from the left
output_df.dropna(subset=['left_dt'], inplace=True)
# Computing a difference to select the right duplicated row to drop (the one with the greates diff)
output_df['diff'] = abs(output_df['left_dt'] - output_df['right_dt'])
output_df.sort(columns='diff', inplace=True)
output_df.drop_duplicates(subset=['left_dt'], inplace=True)
# Bringing back the index
output_df.sort_index(inplace=True)
output_df = output_df.reset_index(drop=True)
# Droping unwanted column
output_df.drop('diff', axis=1, inplace=True)
output_df
left_dt left_flag right_dt right_flag
0 2014-08-23 07:57:03.827516 True 2014-08-23 07:12:52.805870 True
1 2014-08-23 09:27:12.831126 False 2014-08-23 07:12:52.805870 True
2 2014-08-23 11:55:27.551029 True 2014-08-23 15:12:34.815087 True
3 2014-08-23 16:11:33.511049 True 2014-08-23 15:12:34.815087 True
【讨论】:
以上是关于熊猫 - 按时间接近加入的主要内容,如果未能解决你的问题,请参考以下文章