CTR预估算法
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CTR预估算法相关的知识,希望对你有一定的参考价值。
GBRT(Gradient Boost Regression Tree)渐进梯度回归树,XGBoost是GBRT的一个工程实现
LR(Logistics Regression )逻辑回归
Spark Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。Spark允许程序开发者使用有向无环图(DAG)开发复杂的多步数据管道。而且还支持跨有向无环图的内存数据共享,以便不同的作业可以共同处理同一个数据。
Scala 是一门编程语言,可在Spark上编程。有新颖的面向对象方式、类型推断、灵活的语法、新的集合类(包括自然的函数式编程风格,比如映射/过滤器惯用语),以及基于actor的并发模型。
点击率预测主要使用LR(Logistics Regression 逻辑回归)的线性策略,该方法的主要问题之一是需要人工大量的时间去挑选和组合特征,而使用树模型(tree model)则可以大大减轻这个工作量。
XGBoost是GBRT的一个工程实现,由多棵决策树构成,每一棵树都是从之前的残差中学习的,有很好的性能并且泛化能力也很强。
所以可以使用XGBoost来特征选择,用LR来输出CTR分数。
参考:
(1)Spark MLlib实现的广告点击预测–Gradient-Boosted Trees http://blog.csdn.net/bitcarmanlee/article/details/52138713
以上是关于CTR预估算法的主要内容,如果未能解决你的问题,请参考以下文章
阿里算法天才盖坤解读阿里深度学习实践,CTR预估MLR模型兴趣分布网络这些名词你都听说过吗?