在 Pandas 中删除未使用类别的更快方法?

Posted

技术标签:

【中文标题】在 Pandas 中删除未使用类别的更快方法?【英文标题】:A Faster Way of Removing Unused Categories in Pandas? 【发布时间】:2017-03-24 21:18:22 【问题描述】:

我正在 Python 中运行一些模型,其中包含关于类别的数据子集。

对于内存使用和预处理,所有分类变量都存储为类别数据类型。

对于“分组依据”列中分类变量的每个级别,我正在运行回归,我需要将所有分类变量重置为该子集中存在的变量。

我目前正在使用.cat.remove_unused_categories() 执行此操作,它占用了我总运行时间的近 50%。目前,最严重的违规者是我的分组列,其他人没有花太多时间(因为我猜没有那么多级别可以下降)。

这是一个简化的例子:

import itertools
import pandas as pd
#generate some fake data
alphabets = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
keywords = [''.join(i) for i in itertools.product(alphabets, repeat = 2)]
z = pd.DataFrame('x':keywords)

#convert to category datatype
z.x = z.x.astype('category')

#groupby
z = z.groupby('x')

#loop over groups
for i in z.groups:
    x = z.get_group(i)
    x.x = x.x.cat.remove_unused_categories()
    #run my fancy model here

在我的笔记本电脑上,这大约需要 20 秒。对于这个小例子,我们可以转换为 str,然后再转换回 category 以加快速度,但我的真实数据每组至少有 300 行。

是否可以加快这个循环?我尝试过使用 x.x = x.x.cat.set_categories(i),这需要类似的时间,而 x.x.cat.categories = i,它要求的类别数量与我开始时相同。

【问题讨论】:

你可以试试这个:x = z.get_group(i).astype('x':'str').astype('x':'category') 并删除这一行:x.x = x.x.cat.remove_unused_categories()?有趣的是它是否会更快...... 这加快了示例速度,但我的真实数据每组有 3-400 行,在这种情况下字符串转换速度较慢。 【参考方案1】:

您的问题在于您将z.get_group(i) 分配给xx 现在是 z 的一部分的副本。您的代码将在此更改下正常工作

for i in z.groups:
    x = z.get_group(i).copy() # will no longer be tied to z
    x.x = x.x.cat.remove_unused_categories()

【讨论】:

但它仍会从父 DF 复制所有类别 - 你认为它会快得多吗? 我不确定 OP 在做什么!所以我必须相信他们和#run my fancy model here。我运行了这段代码,它非常慢,因为它正在输出 SetWithCopy 警告。我改变了那条线,它很快就完成了。 现在我已经运行了,这肯定是我原始代码的问题。谢谢一百万 - 如果我们在数据构造中将 repeat =2 增加到 3,您会看到问题仍然存在,但这已经从运行时的 0.5 减少到 0.05。 SettingWithCopy 警告不是误报;此外,他们可能会进行垃圾收集(这可能很昂贵)以查找参考

以上是关于在 Pandas 中删除未使用类别的更快方法?的主要内容,如果未能解决你的问题,请参考以下文章

如何在pandas中将多个相同类别的行组合成一个?

如何检索每个类别的最后一条记录(更快的方式)

此代码未过滤 wordpress 中的类别。如果我删除 cat slug 它正在显示数据,但我要求某些特定类别它不起作用

Pandas groupby 类别,评级,从每个类别中获得最高价值?

如何使用pandas按顺序标记多个类别(多行)?

在 WooCommerce 2.6 和 3+ 中删除特定类别的统一运费方法