获取Pandas df的子集,其中多个列匹配来自另一个df的值
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了获取Pandas df的子集,其中多个列匹配来自另一个df的值相关的知识,希望对你有一定的参考价值。
我有两个带有多索引的数据帧,如下所示:
df1
pd.DataFrame({'observation': {('foo', '2017-04-16'): 'green',
('bar', '2017-04-25'): 'red',
('zap', '2017-04-16'): 'red',
('zip', '2017-04-25'): 'blue',
('zip', '2017-04-16'): 'white'},
'observation': {('zap', '2017-04-16'): np.nan,
('bar', '2017-04-27'): 'white',
('foo', '2017-05-16'): np.nan,
('foo', '2017-04-25'): 'red',
('zip', '2017-08-16'): 'red'}})
df2
pd.DataFrame({'foo': {('00', '08'): '0.0',
('01', '08'): '0.0',
('01', '08'): '0.0',
('00', '08'): '1.0',
('03', '08'): '1.0',
('06', '08'): '0.0',
('00', '08'): '1.0',
('00', '08'): '1.0',
('00', '08'): '0.0',
('02', '08'): '0.0'},
'client_id': {('00', '08'): '1.0',
('01', '08'): '1.0',
('01', '08'): '1.0',
('00', '08'): '1.0',
('03', '08'): '1.0',
('06', '08'): '1.0',
('00', '08'): '1.0',
('00', '08'): '1.0',
('00', '08'): '1.0',
('02', '08'): '1.0'},
'execution_date': {('00', '08'): '2019-01-09',
('01', '08'): '2019-01-09',
('01', '08'): '2019-01-09',
('00', '08'): '2019-01-09',
('03', '08'): '2019-01-09',
('06', '08'): '2019-01-09',
('00', '08'): '2019-01-09',
('00', '08'): '2019-01-09',
('00', '08'): '2019-01-09',
('02', '08'): '2019-01-09'},
'del': {('00', '08'): '0.0',
('01', '08'): '0.0',
('01', '08'): '0.0',
('00', '08'): '0.0',
('03', '08'): '0.0',
('06', '08'): '0.0',
('00', '08'): '0.0',
('00', '08'): '0.0',
('00', '08'): '0.0',
('02', '08'): '0.0'},
'act': {('00', '08'): '11',
('01', '08'): '03',
('01', '08'): '06',
('00', '08'): '07',
('03', '08'): '07',
('06', '08'): '11',
('00', '08'): '28',
('00', '08'): '08',
('00', '08'): '14',
('02', '08'): '26'},
'obs': {('00', '08'): '02',
('01', '08'): '02',
('01', '08'): '02',
('00', '08'): '02',
('03', '08'): '02',
('06', '08'): '02',
('00', '08'): '02',
('00', '08'): '02',
('00', '08'): '02',
('02', '08'): '02'}})
两者的大小不同,并且值并不总是重叠,但在df1中找到的每个索引对都在df2中。我想要做的是用df2中的observation
值更新df1中的观察颜色,无论它匹配在哪里。
换句话说,我想基于多索引进行相当于内连接的操作,然后用df2中的值覆盖df1中observation
中的值。但有没有办法一步完成,使用loc
/索引? (这是一个索引问题,但如果有办法用reset_index()
来解决它,那也没关系。)
期望的输出:
obs
00 04 30
08 02
09 16
10 26
16 26
01 01 30
07 16
02 08 02
03 13 26
07 15 26
答案
如果我理解正确,你可以这样做:
df2 = pd.DataFrame({'observation': {('foo', '2017-04-16'): 'green',
('bar', '2017-04-25'): 'red',
('zap', '2017-04-16'): 'red',
('zip', '2017-04-25'): 'blue',
('zip', '2017-04-16'): 'white'},
'observation': {('zap', '2017-04-16'): 'yellow',
('bar', '2017-04-27'): 'white',
('foo', '2017-05-16'): 'black',
('foo', '2017-04-25'): 'red',
('zip', '2017-08-16'): 'red'}})
df['observation'] = df.index.map(dict(zip(df2.index, df2.observation)))
产量
observation
bar 2017-04-27 white
foo 2017-04-25 red
2017-05-16 black
zap 2017-04-16 yellow
zip 2017-08-16 red
以上是关于获取Pandas df的子集,其中多个列匹配来自另一个df的值的主要内容,如果未能解决你的问题,请参考以下文章
Pandas - 匹配来自两个数据帧的两列并在 df1 中创建新列