根据 Pandas DF 中每行的条件获取列标题列表

Posted

技术标签:

【中文标题】根据 Pandas DF 中每行的条件获取列标题列表【英文标题】:Getting list of column headers based on condition per row in Pandas DF 【发布时间】:2020-10-27 03:08:57 【问题描述】:

我想知道是否可以根据条件获取列标题列表。例如,如果我的条件是获取每个单元格中具有“MATCH”值的列标题列表,它将输出列表列表或包含标题名称的字符串列表,如下所示:

["a, c", "b, d", "a, b, c, d", "a, d"]
or 
[["a", "c"], ["b", "d"], ["a", "b", "c", "d"], ["a", "d"]]

感谢您的帮助!

【问题讨论】:

看起来你想迭代每一行?为什么第一个元素是"a", "c",而第一行的d 中有match 【参考方案1】:

你可以试试np.where:

import pandas as pd
import numpy as np
df=pd.DataFrame('a': ['match','mismatch','match'],'b': ['match','match','mismatch'],'c': ['mismatch','mismatch','match'])

print(df)

arr= np.where(df.eq('match'), df.columns, '').sum(axis=1)

print(arr)

输出:

df
          a         b         c
0     match     match  mismatch
1  mismatch     match  mismatch
2     match  mismatch     match

arr
['ab' 'b' 'ac']

然后,要获得所需的列表,您可以尝试:

#first option
arr= np.where(df.eq('match'), df.columns, '').sum(axis=1)
arr=list(map(', '.join,arr))
print(arr)

#second option
arr= np.where(df.eq('match'), df.columns, '').sum(axis=1)
arr=list(map(list,arr))
print(arr)

输出:

#first option
['a, b', 'b', 'a, c']

#second option
[['a', 'b'], ['b'], ['a', 'c']]

【讨论】:

以上是关于根据 Pandas DF 中每行的条件获取列标题列表的主要内容,如果未能解决你的问题,请参考以下文章

Pandas DataFrame:根据条件替换列中的所有值

pandas - 根据列值复制每行'n'次

pandas筛选

Pandas:如何根据其他列值的条件对列进行求和?

如何根据列表有条件地更新 Pandas 中的 DataFrame 列

根据两个 pandas DataFrames 之间的条件为新列分配值