用户在投时长及FM指标的构造
Posted tiankong-blue
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用户在投时长及FM指标的构造相关的知识,希望对你有一定的参考价值。
import pandas as pd
from datetime import datetime
from math import ceil #向上取整
from pandas import DataFrame
data=pd.read_excel(‘./data/data5.xlsx‘,encoding=‘gbk‘,index_col=‘用户‘)
print(data.head())
data.describe(include=‘all‘)
#构造R,F,M, recency距最近时间 frequency 频率 消费金额 monetary
exdata_date=datetime(2016,8,10)
print(exdata_date)
#R
diff_R=exdata_date-data[‘最近投资时间‘]
diff_R.head()
diff_R[1].days
type(diff_R[1].days)
R=[]
for i in diff_R:
R.append(i.days)
diff=exdata_date-data[‘首次投资时间‘]
diff_months=[]
diff[1].days
for i in diff:
diff_months.append(ceil(i.days/30))
#F 平均频次
F=(data[‘投标总次数‘]/diff_months).values
print(F)
#M 平均金额
M=(data[‘总投资金‘]/diff_months).values
cdata=DataFrame([R,list(F),list(M)]).T
cdata.columns=[‘R‘,‘F‘,‘M‘]
cdata.index=data.index
cdata.head()
以上是关于用户在投时长及FM指标的构造的主要内容,如果未能解决你的问题,请参考以下文章
聚类效果评估内部指标(Jaccard系数FM指数Rand指数)外部指标(DB指数Dunn指数)轮廓系数(Silhouette Coefficient)