商户异常下单之休眠启用检测
Posted weixin_天心水面
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了商户异常下单之休眠启用检测相关的知识,希望对你有一定的参考价值。
无论B端还是C端,当客户长期休眠后突然动用贷款或赊销额度,都需要予以预警并分析交易的真实性。通过python分析客户在不同休眠时长下的启用情况。
整体思路首先是生成下单间隔天数,并将期划归为不同的区间,其次按不同的期间统计各区间的下单次数,最后比较两个期间次数的变化,对有变化的部分再着重分析。
import pandas as pd
import numpy as np
import os
import time
os.chdir(r"C:\\jiang\\order_analysis")
tree=pd.read_excel("data_for_tr.xlsx")
df=tree.loc[1:10000,['uid', 'create_dt','sale_amount']]
df.rename(columns='uid':'客户编号','create_dt':'下单日期','sale_amount':'下单金额',inplace=True)
df.head(10)
定义一个函数,获取不同编号客户的下单间隔天数,并合并成一个df,a、b用于设定期间的起止日期。
def gap(df,a=pd.Timestamp(2017,5,22),b=pd.Timestamp(2018,9,30)):
start =time.perf_counter()
df.sort_values(by=['客户编号','下单日期'],ascending=[True,True],inplace=True)
df=df[(df['下单日期']>=a) &(df['下单日期']<=b) & (df['下单金额']> 0)]
dflist=pd.DataFrame()
for i in df['客户编号'].unique():
df_c=df[df['客户编号']==i].reset_index(drop=True)
df_c['下单间隔天数']=df_c.下单日期.diff().dt.days
dflist=pd.concat([dflist,df_c])
dflist.fillna(0,inplace=True)
print('用时:',(time.perf_counter()-start),'s')
return dflist
df_before=gap(df,a=pd.Timestamp(2018,1,1),b=pd.Timestamp(2018,9,30))
df_before.head(10)
df_before.info()
再定义个函数,生成下单间隔天数所属区间。区间需结合交易场景、频率进行设定。
def order_ct(d:pd.DataFrame):
d['区间']=pd.cut(d['下单间隔天数'],bins=[0,3,7,15,30,45,60,90,10000],labels=['0-3天','4-7天','8-15天','16-30天','31-45天','46-60天','61-90天','90+'],include_lowest=True)
result=d.groupby(['客户编号','区间']).agg(**'该间隔下单次数':pd.NamedAgg(column='下单间隔天数',aggfunc='count')).unstack(level=-1).reset_index()
result.columns=result.columns.droplevel(0)
result.rename(columns='':'客户编号',inplace=True)
result.set_index('客户编号',inplace=True)
return result
df_before=gap(df,a=pd.Timestamp(2018,1,1),b=pd.Timestamp(2018,9,30))
order_ct(df_before)
经过以上处理,已经将a=pd.Timestamp(2017,5,22),b=pd.Timestamp(2018,9,30)期间的交易,按时下单间隔天数所属区间生成了一个表格。
以上两个函数处理过程也可以合成为一个:
def gap(df,a=pd.Timestamp(2017,5,22),b=pd.Timestamp(2018,9,30)):
start =time.perf_counter()
df.sort_values(by=['客户编号','下单日期'],ascending=[True,True],inplace=True)
df=df[(df['下单日期']>=a) &(df['下单日期']<=b) & (df['下单金额']> 0)]
dflist=pd.DataFrame()
for i in df['客户编号'].unique():
df_c=df[df['客户编号']==i].reset_index(drop=True)
df_c['下单间隔天数']=df_c.下单日期.diff().dt.days
dflist=pd.concat([dflist,df_c])
dflist.fillna(0,inplace=True)
print('用时:',(time.perf_counter()-start),'s')
dflist['区间']=pd.cut(dflist['下单间隔天数'],bins=[0,3,7,15,30,45,60,90,10000],labels=['0-3天','4-7天','8-15天','16-30天','31-45天','46-60天','61-90天','90+'],include_lowest=True)
result=dflist.groupby(['客户编号','区间']).agg(**'该间隔下单次数':pd.NamedAgg(column='下单间隔天数',aggfunc='count')).unstack(level=-1).reset_index()
result.columns=result.columns.droplevel(0)
result.rename(columns='':'客户编号',inplace=True)
result.set_index('客户编号',inplace=True)
return result
df1=gap(df,a=pd.Timestamp(2017,5,22),b=pd.Timestamp(2018,9,30)) #上期
df2=gap(df,a=pd.Timestamp(2017,5,22),b=pd.Timestamp(2018,10,31)) #本期
# 自2018年9月30日之后可能存在新增用户,为便于比较,需要筛选出老户的下单间隔情况。
df2_1=df2[df2.index.isin(df1.index) ]
df2_1
至此,已生成两个不同区间下单间隔的分布表,接下来对两个表对加比较,寻找差异。
abnormal=(
df1.compare(df2_1).iloc[:,2:]
.dropna(axis=0,how='all')
.fillna(0)
.rename(columns='self':'上期','other':'本期')
# .style.set_caption('间隔多天下单需排查的客户')
)
abnormal
abnormal部分数据如下,由于0-3天的下单间隔较为正常,故舍去:
通过上图可以清晰知道客户在本期产生的交易有多少是休眠后下单的。比如A2362798在本期新增了90+的下单记录,锁定后再进一步分析交易细节。
再看看本期有无新增客户:
df2_plus=df2[~df2.index.isin(df1.index) ]
df2_plus #结果是没有新增
最后,便是对各区间的异常情况加以具体分析。以90+的为例:
ab_90=abnormal.loc[abnormal[('90+','本期')] >=1,[('90+','本期')]]
ab_90
order_ab_90=df[df.客户编号.isin(ab_90.index)]
order_ab_90.sort_values(by='下单日期',ascending=True)
以下对分析结果画图展示,获得更直观的结果。
import matplotlib.pyplot as plt
plt.rcParams['font.family']=['sans-serif']
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
for i in order_ab_90.客户编号.unique():
did=order_ab_90[order_ab_90.客户编号==i]
plt.figure()
plt.figure(figsize=(20,4))
plt.bar(did.下单日期, did.下单金额)
plt.title('客户编号为且下单间隔90+的交易情况'.format(i))
plt.show()
for i in order_ab_90.客户编号.unique():
did=order_ab_90[order_ab_90.客户编号==i]
plt.figure()
plt.figure(figsize=(20,4))
plt.scatter(did.下单日期, did.下单金额)
plt.title('客户编号为且下单间隔90+的交易情况'.format(i))
plt.show()
结合下单的品类结构、送货地址变化、司机、收货人、出入库记录等信息再判断订单的真实性。对异常点形成较为完整全面的认识,为下一步反欺诈调查做好铺垫。
以上是关于商户异常下单之休眠启用检测的主要内容,如果未能解决你的问题,请参考以下文章