添加一个新列,其中包含满足条件的所有行的值列表
Posted
技术标签:
【中文标题】添加一个新列,其中包含满足条件的所有行的值列表【英文标题】:Add a new column with the list of values from all rows meeting a criterion 【发布时间】:2017-11-10 20:14:38 【问题描述】:我有一些数据列表,格式如下:
date value
'2017-01-01 01:01:01' 99
'2017-01-02 01:01:01' 98
'2017-01-03 01:01:01' 97
....
'2017-01-30 01:01:01' 95
'2017-01-31 01:01:01' 94
我想添加一列,如下所示:
date value list
...
...
...
'2017-01-30 01:01:01' 95 [99,98,97,95]
'2017-01-31 01:01:01' 94 [99,98,97,95,94]
如果日期在相应行中的日期之前的某个时间范围内(例如 5 天),则第三列是第二列中的值列表。
【问题讨论】:
你被否决了,因为你的问题完全含糊。 只需点击问题文本编辑器右上角的 (?) 帮助图标。 【参考方案1】:这样的东西应该可以工作......
df = pd.DataFrame('date': ['2017-01-01 01:01:01', '2017-01-02 01:01:01', '2017-01-03 01:01:01', '2017-01-30 01:01:01', '2017-01-31 01:01:01'],
'value': [99,98,97,95,94])
df['date'] = pd.to_datetime(df['date'])
def get_list(row):
subset = df[(row['date'] - df['date'] <= pd.to_timedelta('5 days')) & (row['date'] - df['date'] >= pd.to_timedelta('0 days'))]
return str(subset['value'].tolist())
df['list'] = df.apply(get_list, axis=1)
输出:
date value list
0 2017-01-01 01:01:01 99 [99]
1 2017-01-02 01:01:01 98 [99, 98]
2 2017-01-03 01:01:01 97 [99, 98, 97]
3 2017-01-30 01:01:01 95 [95]
4 2017-01-31 01:01:01 94 [95, 94]
【讨论】:
谢谢莱利!难道 for 循环不会使代码变慢并且有点违背 pandas 的目的吗? 我编辑了代码,使其更简洁,避免使用 for 循环以上是关于添加一个新列,其中包含满足条件的所有行的值列表的主要内容,如果未能解决你的问题,请参考以下文章