用于计算大型数据帧的更快的函数或脚本

Posted

技术标签:

【中文标题】用于计算大型数据帧的更快的函数或脚本【英文标题】:Faster function or script for computing a large dataframe 【发布时间】:2018-07-03 09:57:04 【问题描述】:

我有以下信息的在线用户数据,

df.head()

USER Timestamp  day_of_week Busi_days   Busi_hours
AAD 2017-07-11 09:31:44 TRUE    TRUE
AAD 2017-07-11 23:24:43 TRUE    FALSE
AAD 2017-07-12 13:24:43 TRUE    TRUE
SAP 2017-07-23 14:24:34 FALSE   FALSE
SAP 2017-07-24 16:58:49 TRUE    TRUE
YAS 2017-07-31 21:10:35 TRUE    FALSE

我想计算 USER 列的活动并创建三个新列,即: 1. Activity:使用基于用户活跃程度的信息,这意味着如果同一用户点击两次以上,则将其称为 TRUE 否则错误的。 2.Multiple_days: 如果用户点击网站超过一天,如果同一用户点击超过 2 天,则调用该列 TRUE 否则 FALSE。 3.Busniess_days:用户是否在工作日点击,如果用户在营业日内的营业时间内点击该网站,则称其为True,否则为FALSE

我有以下脚本执行上述任务,但对于我的庞大数据框my data frame is 117Mb in size. 来说它真的很慢@任何更好的解决方案都会很棒

我的尝试:

df.Timestamp = pd.to_datetime(df.Timestamp)
df['date'] = [x.date() for x in df.Timestamp]
target_df = pd.DataFrame()
target_df['USER'] = df.USER.unique()
a = df.groupby(['USER', 'date']).size()
a = a[a>1]
UID=pd.DataFrame(a).reset_index().USER.values

target_df['Active'] = [True if x in UID else False for x in target_df.USER.values]
a = df.groupby('USER')['Timestamp'].nunique()
a = a[a>1]
UUID2=pd.DataFrame(a).reset_index().USER.values 
target_df['Multiple_days'] = [True if x in UUID2 else False for x in target_df.USER.values]

a = df[(df.Busi_days==True)&(df.Busi_hours==True)].USER.unique()

target_df['Busi_weekday'] = [True if x in a else False for x in target_df.USER.values]

target_df.head()


USER Active  Multiple_days   Busi_weekday
AAD TRUE    TRUE    TRUE
SAP FALSE   TRUE    FALSE
YAS FALSE   FALSE   FALSE

【问题讨论】:

TA_log 是什么? 对不起它的 df,我编辑了错字 TA_log 是我在真实脚本上用于我的真实数据框的名称。它的df在这里的问题 a = df[(df.Busi_days==True)&(df.Busi_hours==True)].uuid.unique() 中也是错字。 是的,也感谢您的通知。我刚刚在我的问题中编辑了它 @user1017373,你能指出哪位是瓶颈吗?有几种方法可以找到它:在脚本运行时打印时间戳,或者通过分析器运行。虽然我们可以做出很好的猜测,但拥有这些数据可能会产生更好的答案。 【参考方案1】:

你可以使用:

df.Timestamp = pd.to_datetime(df.Timestamp)

df['date'] = df.Timestamp.dt.floor('d')

u = df.USER.unique()
a = df.groupby(['USER', 'date']).size().reset_index(level=1, drop=True)
a = a[a>1]
target_df = a[~a.index.duplicated()]
                .astype(bool).reindex(u, fill_value=False).to_frame(name='Active')

a = df.groupby('USER')['Timestamp'].nunique()
target_df['Multiple_days'] = a[a>1].astype(bool).reindex(u, fill_value=False)

a = df[(df.Busi_days==True)&(df.Busi_hours==True)].USER.unique()
target_df['Busi_weekday'] = target_df.index.isin(a)
print(target_df)

      Active  Multiple_days  Busi_weekday
USER                                     
AAD     True           True          True
SAP    False           True          True
YAS    False          False         False

编辑:

自定义函数的解决方案:

print (df1)
  USER   Timestamp day_of_week  Busi_days  Busi_hours
0  AAD  2017-07-11    09:31:44       True        True
1  AAD  2017-07-11    23:24:43       True       False
2  AAD  2017-07-12    13:24:43       True        True
3  SAP  2017-07-23    14:24:34      False       False
4  SAP  2017-07-24    16:58:49       True        True
5  YAS  2017-07-31    21:10:35       True       False

def func(df, time_col, user_col):
    df[time_col] = pd.to_datetime(df[time_col])

    df['date'] = df[time_col].dt.floor('d')

    u = df.USER.unique()
    a = df.groupby([user_col, 'date']).size().reset_index(level=1, drop=True)
    a = a[a>1]
    target_df = (a[~a.index.duplicated()]
                    .astype(bool).reindex(u, fill_value=False).to_frame(name='Active'))

    a = df.groupby(user_col)[time_col].nunique()
    target_df['Multiple_days'] = a[a>1].astype(bool).reindex(u, fill_value=False)

    a = df.loc[(df.Busi_days==True)&(df.Busi_hours==True), user_col].unique()
    target_df['Busi_weekday'] = target_df.index.isin(a)
    return target_df

#inputs are name of DataFrame, column for timestamp and column for user    
print (func(df1, 'Timestamp', 'USER'))
      Active  Multiple_days  Busi_weekday
USER                                     
AAD     True           True          True
SAP    False           True          True
YAS    False          False         False

【讨论】:

谢谢,但它会抛出错误,ValueError: cannot reindex from a duplicate axis 有没有可能把它做成一个可以在别处使用的函数? 当然,函数的输入是什么? 上面提到的数据框,或者我希望它是命令行可执行的。 是的,我们不明白。函数中的输入是什么?仅列名称timestamp

以上是关于用于计算大型数据帧的更快的函数或脚本的主要内容,如果未能解决你的问题,请参考以下文章

如何在 python 中计算大型 spark 数据框的 kendall tau?

使用 apply 计算跨多个数据帧的子量表和总分

计算不包含“NA”的数据帧的行[重复]

Serverless冷启动:如何让函数计算更快更强?

大型“for”循环哪个更快:函数调用或内联编码?

对具有相同结构的几个数据集使用lapply并可能进行for循环以提取和计算每个数据帧的值