在 pandas / python 中对条件值进行分组和计数
Posted
技术标签:
【中文标题】在 pandas / python 中对条件值进行分组和计数【英文标题】:Group by and count conditional values in pandas / python 【发布时间】:2020-02-13 23:53:07 【问题描述】:请,我需要在我的 python/pandas 代码中计算两个具有条件值的独立列。 请参阅使用 lambda 的示例:
self._df = self._df.groupby(['id', 'field1', 'field2'])['fieldX', 'fieldY'].apply(lambda x: pd.Series([(x['fieldX'] == 1).sum(), (x['fieldY'] == 2).sum()])).reset_index()
这段代码很慢。 没有 lambda 的 pandas 和 group by 还有另一种方法吗?
谢谢
【问题讨论】:
【参考方案1】:是的,这是可能的。首先使用DataFrame.assign
比较两列,转换为整数并将列分配回原来的,所以最后只需要聚合sum
:
self._df = (self._df.assign(fieldX = (self._df['fieldX'] == 1).astype(int),
fieldY = (self._df['fieldY'] == 2).astype(int))
.groupby(['id', 'field1', 'field2'])['fieldX', 'fieldY']
.sum()
.reset_index())
【讨论】:
以上是关于在 pandas / python 中对条件值进行分组和计数的主要内容,如果未能解决你的问题,请参考以下文章
Pandas:在多列中查找具有匹配值的行的 Pythonic 方法(分层条件)
如何使用 Pandas 在 Python 中对字典中的数据进行排序