是否有 Pandas 解决方案——例如:使用 numba 或 Cython——使用索引、MultiIndexed DataFrame 来“转换”/“应用”?

Posted

技术标签:

【中文标题】是否有 Pandas 解决方案——例如:使用 numba 或 Cython——使用索引、MultiIndexed DataFrame 来“转换”/“应用”?【英文标题】:Is there a Pandas solution—e.g.: with numba, or Cython—to `transform`/`apply` with an index, a MultiIndexed DataFrame? 【发布时间】:2020-04-12 15:15:46 【问题描述】:

是否有 Pandas 解决方案(例如:使用 numba 或 Cython)到 transform/apply 和索引?

我知道我可以使用 iterrowsitertuplesiteritemsitems。但是我想要做的应该是微不足道的矢量化......我已经为我的实际用例构建了一个简单的代理(runnable code):

df = pd.DataFrame(
    np.random.randn(8, 4),
    index=[np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux']),
           np.array(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'])])

namednumber2numbername = 
    'one': ('zero', 'one', 'two', 'three', 'four',
            'five', 'six', 'seven', 'eight', 'nine'),
    'two': ('i',    'ii',  'iii', 'iv',    'v',
            'vi',   'vii', 'viii',  'ix',    'x')


def namednumber2numbername_applicator(series):        
    def to_s(value):
        if pd.isnull(value) or isinstance(value, string_types): return value
        value = np.ushort(value)
        if value > 10: return value

        # TODO: Figure out idx of `series.name` at this `value`… instead of `'one'`

        return namednumber2numbername['one'][value]

    return series.apply(to_s)

df.transform(namednumber2numbername_applicator)

实际输出

             0      1      2      3
bar one   zero   zero    one  65535
    two   zero   zero   zero   zero
baz one   zero   zero   zero   zero
    two   zero    two   zero   zero
foo one  65535   zero   zero   zero
    two   zero  65535  65534   zero
qux one   zero    one   zero   zero
    two   zero   zero   zero   zero

我想要的输出

             0      1      2     3
bar one   zero   zero    one  65535
    two      i      i      i      i
baz one   zero   zero   zero   zero
    two      i    iii      i      i
foo one  65535   zero   zero   zero
    two      i  65535  65534      i
qux one   zero    one   zero   zero
    two      i      i      i      i

可能相关:How to query MultiIndex index columns values in pandas

基本上我正在寻找与javascript's Array.prototype.map 相同的行为(通过idx)。

【问题讨论】:

你能发布预期的输出吗?我无法让您的 namednumber2numbername_applicator 工作 @oppressionslayer 添加。此外,有关完整的可运行示例(导入和所有),请参阅:ideone.com/XxNsG9 我想我已经修好了,你能帮我查一下吗,我希望它修好了! 我添加了一个没有 .items() 的单行,检查一下! 【参考方案1】:

我编写了一个非常快速的转换版本来获得这些结果。您也可以在生成器内部执行 np.ushort,它仍然很快,但在外部要快得多:

import time
df = pd.DataFrame(
    np.random.randn(8, 4**7),
    index=[np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux']),
           np.array(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'])])

start = time.time()
df.loc[:,] = np.ushort(df)
df = df.transform(lambda x: [ i if i> 10 else namednumber2numbername[x.name[1]][i] for i in x], axis=1)
end = time.time()
print(end - start)

# 1.150895118713379

这是原文的时间:

df = pd.DataFrame( np.random.randn(8, 4),
     index=[np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux']), 
           np.array(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'])]) 

start = time.time() 
df.loc[:,] = np.ushort(df) 
df = df.transform(lambda x: [ i if i> 10 else namednumber2numbername[x.name[1]][i] for i in x], axis=1) 
end = time.time() 
print(end - start)                                                                                                                                                                   
# 0.005067110061645508

In [453]: df                                                                                                                                                                                   
Out[453]: 
             0     1      2     3
bar one   zero  zero    one  zero
    two      i     i      i     i
baz one   zero  zero   zero  zero
    two      i     i     ii     i
foo one  65535  zero  65535  zero
    two      i     i      i     i
qux one   zero  zero   zero  zero
    two      i     i      i    ii

我得到了一个班轮:

df.transform(lambda x: [ np.ushort(value) if np.ushort(value) > 10 else namednumber2numbername[pos[1]][np.ushort(value)] for pos, value in x.items()])                              

             0     1      2     3
bar one   zero  zero   zero  zero
    two      i     i     ii     i
baz one  65534  zero  65535  zero
    two     ii     i  65535     i
foo one   zero  zero   zero  zero
    two     ii     i      i    ii
qux one  65535  zero   zero  zero
    two      i     i      i     i

好的,没有 .items() 的版本:


def what(x): 
   if type(x[0]) == np.float64: 
      if np.ushort(x[0])>10: 
         return np.ushort(x[0]) 
      else: 
         return(namednumber2numbername[x.index[0][1]][np.ushort(x[0])]) 

df.groupby(level=[0,1]).transform(what)

            0     1      2      3
bar one  zero   one   zero   zero
    two     i    ii  65535      i
baz one  zero  zero  65535   zero
    two     i     i      i      i
foo one  zero   one   zero   zero
    two     i     i      i      i
qux one   two  zero   zero  65534
    two     i     i      i     ii

还有一个班轮!!!!根据您的要求没有 .items!我们将级别 0 和 1 分组,然后执行计算以确定值::

df.groupby(level=[0,1]).transform(lambda x: np.ushort(x[0]) if type(x[0]) == np.float64 and np.ushort(x[0]) >10 else namednumber2numbername[x.index[0][1]][np.ushort(x[0])])

            0     1      2      3
bar one  zero   one   zero   zero
    two     i    ii  65535      i
baz one  zero  zero  65535   zero
    two     i     i      i      i
foo one  zero   one   zero   zero
    two     i     i      i      i
qux one   two  zero   zero  65534
    two     i     i      i     ii

为了获得其他值,我这样做了:

df.transform(lambda x: [ str(x.name[0]) + '_' + str(x.name[1]) + '_' + str( pos)+ '_' +str(value) for pos,value in x.items()])

print('Transformed DataFrame:\n',
      df.transform(what), sep='')

Transformed DataFrame:
                             α                                                        ...                          ω                                                       ε
f                            a                          b                          c  ...                          b                           c                           j
one  α_a_one_79.96465755359696  α_b_one_31.32938096131651   α_c_one_2.61444370203201  ...   ω_b_one_35.7457972161041  ω_c_one_40.224465043054195  ε_j_one_43.527184108357496
two  α_a_two_42.66244395377804  α_b_two_65.92020941618344  α_c_two_77.26467264185487  ...  ω_b_two_40.91908469505522  ω_c_two_50.395561828234555   ε_j_two_71.67418483119914
one   α_a_one_47.9769845681328  α_b_one_38.90671671550259  α_c_one_67.13601594352508  ...  ω_b_one_23.23799084164898  ω_c_one_63.551178212994465  ε_j_one_16.975582723809303

这是一个没有 .items 的:

df.transform(lambda x: ['_'.join((x.name[0], x.name[1], x.index[0], str(i) if type(i) == float else 0)) for i in list(x)]) 

输出

                             α                                                        ...                          ω                                                       ε
f                            a                          b                          c  ...                          b                           c                           j
one  α_a_one_79.96465755359696  α_b_one_31.32938096131651   α_c_one_2.61444370203201  ...   ω_b_one_35.7457972161041  ω_c_one_40.224465043054195  ε_j_one_43.527184108357496
two  α_a_two_42.66244395377804  α_b_two_65.92020941618344  α_c_two_77.26467264185487  ...  ω_b_two_40.91908469505522  ω_c_two_50.395561828234555   ε_j_two_71.67418483119914
one   α_a_one_47.9769845681328  α_b_one_38.90671671550259  α_c_one_67.13601594352508  ...  ω_b_one_23.23799084164898  ω_c_one_63.551178212994465  ε_j_one_16.975582723809303

我也这样做了,没有分组:

df.T.apply(lambda x: x.name[0] + '_'+ x.name[1] + '_' + df.T.eq(x).columns + '_' + x.astype(str) ,  axis=1).T

or even better and most simple:

df.T.apply(lambda x: x.name[0] + '_'+ x.name[1] + '_' + x.index + '_' + x.astype(str) ,  axis=1).T 

or 

df.T.transform(lambda x: x.name[0] + '_'+ x.name[1] + '_' + x.index + '_' + x.astype(str) ,  axis=1).T 

or with no .T:

df.transform(lambda x: x.index[0][0] + '_'+ x.index[0][1] + '_' + x.name + '_' + x.astype(str) ,  axis=1) 
                             α                                                        ...                          ω                                                       ε
f                            a                          b                          c  ...                          b                           c                           j
one  α_a_one_79.96465755359696  α_b_one_31.32938096131651   α_c_one_2.61444370203201  ...   ω_b_one_35.7457972161041  ω_c_one_40.224465043054195  ε_j_one_43.527184108357496
two  α_a_two_42.66244395377804  α_b_two_65.92020941618344  α_c_two_77.26467264185487  ...  ω_b_two_40.91908469505522  ω_c_two_50.395561828234555   ε_j_two_71.67418483119914
one   α_a_one_47.9769845681328  α_b_one_38.90671671550259  α_c_one_67.13601594352508  ...  ω_b_one_23.23799084164898  ω_c_one_63.551178212994465  ε_j_one_16.975582723809303

【讨论】:

谢谢……但是在它的实现中不是真的低效和反 numpy/anti-pandas 吗? - 我在谈论values 作为一个简单的 Python 列表,并附加它。当然,它可以很容易地被重写为一个理解,如果留下作为一个生成器可以作为一个 numpy 数组的输入。但这仍然不是真正“错误”的熊猫/numpy代码吗? - oneortwofor value in x 将使事情保持完全顺序且不可并行化。 作为参考,这是我刚刚写到列表理解中的你的一个版本:ideone.com/b5iQT7 我在这方面花了很多时间,所以我的大脑很痛,哈哈,但也许,让我想想吧。 我添加了加入。如果您不介意,我也会寻找这样的解决方案。另外,我注意到该解决方案的一件事是它非常麻烦,尝试在其中添加打印,它会重新循环很多次,但也许我可以找到一种方法让它循环一次 谢谢!!!如果您需要其他任何东西,请告诉我,我在这方面工作很开心。我希望有更多这样的。【参考方案2】:

Transform 默认情况下将函数应用于每一列。您可以改为将其应用于指定轴参数 = 1'columns' 的每个 。然后您就可以访问行索引并将其第二个名称字段传递给您的函数:

    def namednumber2numbername_applicator(series):        
        def to_s(value, name):
            if pd.isnull(value): return value
            value = np.ushort(value)
            if value > 10: return value

            return namednumber2numbername[name][value]

        return series.apply(to_s, args=((series.name[1]),))

df.transform(namednumber2numbername_applicator, 1)

结果:

             0      1      2      3
bar one  65535   zero   zero  65535
    two     ii      i    iii  65535
baz one  65535   zero   zero  65535
    two      i      i  65535      i
foo one   zero   zero   zero   zero
    two      i  65535      i      i
qux one   zero   zero   zero  65535
    two      i      i      i      i

【讨论】:

谢谢,看起来很干净。我已经将它应用于我的真实数据集,但现在对如何获取感到困惑,例如:坐标 baz、2、1(i 值)——所有三个标识符(baztwo、@987654331 @)。我如何获得这些? IIUC 你需要name[0] (baz),因为你已经有name[1] (two) 和值(1):只需使用return series.apply(to_s, args=((series.name),)) 然后你就可以访问@ 987654338@ 和 name[1] 在您的 to_s 函数中。如果这不是您所需要的,请重新表述您的问题。 嗨@Stef - 这是我的DataFrame:ideone.com/nhzK5F 的确切形状和命名约定(包括多索引层次结构)的示例。我试图在我的 *** 问题中简化它,但我没有意识到在简化它的过程中,答案并不能解决我的实际问题:\ - 请看看你是否可以告诉我如何在 DataFrame 中找到光标所在的单元格目前正在开启。我需要知道它的行标签("one""two")以及它的列标签(希腊字母和拉丁字母)。【参考方案3】:

这是使用reindexnp.where() 的另一种方式:

def myf(dataframe,dictionary):
    cond1=dataframe.isna()
    cond2=np.ushort(dataframe)>10
    m=(pd.DataFrame.from_dict(dictionary,orient='index')
                          .reindex(dataframe.index.get_level_values(1)))
    m.index=pd.MultiIndex.from_arrays((dataframe.index.get_level_values(0),m.index))
    arr=np.where(cond1|cond2,np.ushort(dataframe),
                                 m[m.columns.intersection(dataframe.columns)])
return pd.DataFrame(arr,dataframe.index,dataframe.columns)

myf(df,namednumber2numbername)

             0      1      2      3
bar one   zero    one    two  three
    two  65535     ii    iii  65535
baz one   zero    one  65535  three
    two      i     ii    iii     iv
foo one   zero  65535    two  three
    two      i     ii    iii     iv
qux one   zero  65535    two  65535
    two      i     ii    iii     iv

后续步骤:

此函数使用字典 (m) 创建一个数据框,并重新索引原始数据。 发布此消息后,我们将添加一个额外级别以使其成为与原始数据帧相同的多索引。 (在 func 中打印 m 以查看 m) 然后我们检查数据帧是否为 Null 或 np.ushort 值大于 10 的条件 如果条件匹配,则返回 np.ushort 的数据帧,否则从 m 的匹配列中返回值。

让我知道是否有任何我遗漏的步骤要检查,或者您想合并,因为我认为这是避免逐行计算的一种方法。

【讨论】:

【参考方案4】:

使用 Series.map 的示例:

class dict_default_key(dict):
    def __missing__(self, key):
        return key


number_names = [
    'zero',
    'one',
    'two',
    'three',
    'four',
    'five',
    'six',
    'seven',
    'eight',
    'nine'
]
roman_numerals = [
    'i', 'ii', 'iii', 'iv', 'v', 'vi', 'vii', 'viii', 'ix', 'x'
]
name_mapping = 
    'one': dict_default_key(
        c: v for c, v in enumerate(number_names)
    ),
    'two': dict_default_key(
        c: v for c, v in enumerate(roman_numerals)
    )


def translate(series):
    key = series.name[1]
    row_map = name_mapping[key]
    result = series.map(row_map)
    return result

ushorts = df.apply(np.ushort)
ushorts.apply(translate, axis=1)

【讨论】:

谢谢,这行得通。我已经将它应用于我的真实数据集,但现在对如何获取感到困惑,例如:坐标baztwo1i 值)——所有三个标识符(baztwo1)。我如何获得这些?【参考方案5】:

我将如何解决这个问题:

# 1. Rewrite functions to include a parameter for `idx`
def some_fun_name(value, idx):  
    value = np.ushort(value)
    if value > 10: 
        return value
    else:
        return namednumber2numbername[idx][value]

def apply_some_fun_name(s):  
    idx = list(s.index.get_level_values(1).unique())[0]
    return s.transform(some_fun_name, idx=idx)

# 2. Apply function over the keys of the multi-index, replacing while operating:
df = df.groupby(level=1).transform(apply_some_fun_name)

# 3. I got the following result while using `np.random.seed(1)`:
             0      1     2      3
bar one    one   zero  zero  65535
    two      i  65534    ii      i
baz one   zero   zero   one  65534
    two      i      i    ii  65535
foo one   zero   zero  zero   zero
    two  65535     ii     i      i
qux one   zero   zero  zero   zero
    two      i      i     i      i

【讨论】:

以上是关于是否有 Pandas 解决方案——例如:使用 numba 或 Cython——使用索引、MultiIndexed DataFrame 来“转换”/“应用”?的主要内容,如果未能解决你的问题,请参考以下文章

是否有使用Pandas限制数据透视表的行数的功能?

pandas 的数据结构(Series, DataFrame)

是否可以在 pandas 数据框中有多个索引?

如何使用 Pandas 重命名重置索引上的多个列

Pandas Groupby 值范围

.nu get文件夹为什么有解决方案呢?