客户旅程的二元分类
Posted
技术标签:
【中文标题】客户旅程的二元分类【英文标题】:Binary categorial classification of customer journey 【发布时间】:2019-06-07 19:33:13 【问题描述】:我想开发一个模型,可以对客户旅程的二元性质进行分类(1 表示旅程已完成购买,0 表示没有购买(“jrn_type”列)。旅程由渠道组成,如如下图数据所示(从 1 到 7 的列)。
哪种模型最适合数据?
【问题讨论】:
似乎你在最后四列中有很多nan
值,对于所有数据集都是一样的。型号的选择,没有golden-rule
,但是你可以先试试regression
,naive-bayes
这样很简单的型号,如果能解决你的问题,再换一个型号。
是的,我有很多nan
,因为每个旅程都有不同数量的频道,空值表示旅程已终止。我认为nan
是我频道课程的附加课程。
我怀疑这是否可行,因为它会导致您的模型出现偏差,但您可以尝试一下。
你会如何处理它?有什么想法吗?
其实不了解完整的问题是很难猜出来的。
【参考方案1】:
朴素贝叶斯是一种简单但有效且常用的机器学习分类器。它是一个概率分类器,在贝叶斯设置中使用最大 A 后验决策规则进行分类。根据您的数据,您最好使用朴素贝叶斯模型。 逻辑回归始终是一个很好的备用方法,决策树会对您的数据进行分类,但不如朴素贝叶斯。 最后,我建议您使用交叉验证方法来验证您的模型,以确保您已经很好地学习了模型。
【讨论】:
您好,我尝试了不同的分类器,正如您所建议的,朴素贝叶斯已达到特征测试集的最佳准确度,准确率为 74%。如何使用这种类型的分类器提高我的准确率?以上是关于客户旅程的二元分类的主要内容,如果未能解决你的问题,请参考以下文章
UML工具Visual Paradigm:创建一个客户旅程图
Visual Paradigm 顾客旅程地图 (Customer Journey Map)
R语言ggplot2可视化散点图并添加平滑曲线WVPlots包BinaryYScatterPlot函数可视化一起中一个变量为二元离散变量的散点图(随着年龄变化是否有健康保险的客户的比例)