Pandas 替换列中的值,但 to_replace 参数是包含元组的元组

Posted

技术标签:

【中文标题】Pandas 替换列中的值,但 to_replace 参数是包含元组的元组【英文标题】:Pandas replacing values in columns, but to_replace argument is a tuple containing tuples 【发布时间】:2020-04-08 13:36:43 【问题描述】:

我正在解码 NLSY 79 中的值。它们是职业行业。每个行业都有多个职业;例如:从 17 岁到 29 岁的所有职业都在农业、林业和渔业。我尝试了三种策略,但是两种返回错误,第三种没有将值存储在数据框中。

执行代码如下(调查对象最多可以列出 5 个工作,所有这些都包含在数据中)

df[['Job1', 'Job2', 'Job3', 'Job4', 'Job5']].replace(to_replace=jobs['code'], value=jobs['true'], inplace=True)

策略 1

ValueError:具有多个元素的数组的真值不明确。使用 a.any() 或 a.all()

jobs = 'code': ( tuple(range(17,29)), ... )
        'true': ( 'Agriculture, Forestry & Fisheries', ... )

策略 2

TypeError: 无法比较类型 'ndarray(dtype=float64)' 和 'range'

jobs = 'code': ( range(17,29), ... )
        'true': ( 'Agriculture, Forestry & Fisheries', ... )

策略 3

SettingWithCopyWarning:试图在 DataFrame 中的切片副本上设置值

jobs = 'code': ( any(tuple(range(17, 29))), any(tuple(range(47, 58))), ... )
        'true': ( 'Agriculture, Forestry & Fisheries', 'Mining', ... )

我认为对第三个策略/执行代码进行调整是最好的,但我对编码还是很陌生,不确定它会是什么。有关如何解决此问题的任何建议?

Input:
        Job1      ...  
0       339       ...  
1       757       ...  
2       739       ...  
3       448       ...  

Desired Output:

        Job1            ...  
0       Utilities       ...  
1       Professional    ...  
2       Professional    ...  
3       Retail          ...

job = 'code': (list(range(17, 29)),
                   list(range(47, 58)),
                   list(range(67, 78)), ...)
       'true': ('Agriculture, Forestry & Fisheries',
                  'Mining',
                  'Construction', ...)

【问题讨论】:

【参考方案1】:

试试这个:

df1
        Job1
0       20
1       50
2       70

job = 'code': (list(range(17, 29)),
                   list(range(47, 58)),
                   list(range(67, 78))),
       'true': ('Agriculture, Forestry & Fisheries',
                  'Mining',
                  'Construction')

pd_replace = pd.DataFrame(job).explode('code')
df1.replace(dict(zip(pd_replace['code'], pd_replace['true'])))

                                Job1
0  Agriculture, Forestry & Fisheries
1                             Mining
2                       Construction

【讨论】:

工作并将运行时间缩短了一半!一个问题是我一次只能针对一列执行此操作,因此我必须遍历 5 个作业列。我能做些什么来保持这一点吗?【参考方案2】:

解决了。不是最快的方法,但它有效。

job = 'code': (list(range(17, 29)), ...),  
       'true': ('Agriculture, Forestry & Fisheries', ...)  

    for i, x in enumerate(job['code']):  
        for key in df_jobs:  
            df[key].replace(to_replace=x, value=[job['true'][i]]*len(x), inplace=True)  

【讨论】:

以上是关于Pandas 替换列中的值,但 to_replace 参数是包含元组的元组的主要内容,如果未能解决你的问题,请参考以下文章

Python Pandas根据多个其他列中的条件替换一列中的值[重复]

将 pandas 列中的值替换为缺失键的默认值

Pandas处理dataframe的文本数据列:使用replace函数替换指定文本内容to_replace参数指定被替换的内容value参数指定替换的内容

使用 dplyr 有条件地替换列中的值

Pandas实战教程 | 统一替换某列中的值 .replace()

Python Pandas 将一列中的 NaN 替换为第二列对应行的值