CTR预估评价指标介绍

Posted 2020-08-20 coldyan

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了CTR预估评价指标介绍相关的知识，希望对你有一定的参考价值。

1 离线指标

　　logloss使用KL散度来计算。设样本的真实分布为P，预测分布为Q，则KL散度定义如下：

　　这里可以通俗地把KL散度理解为相同事件空间里两个概率分布的相异情况。KL散度越小，预测分布越接近真实分布。

　　KL散度的物理意义是：使用分布Q来对真实分布为P的事件进行编码，导致平均编码长度增加了多少。具体解释可见百度和知乎。

　　CTR预估中，上面的概率分布为二项分布。设真实的点击率是tctr，预测的点击率是pctr。因此真实的二项分布P是（tctr,1-tctr），预测的二项分布Q是(pctr,1-pctr)。因此KL散度公式可以写成如下：

　　tctr可以通过统计得出，表示为 tctr = click / impression。则KL散度可以变形如下：

因此，计算logloss的伪代码如下：

　　CTR预估是一个二分类问题。二分类问题的评价指标有FP rate，TP rate，准确率accuracy，精确率precision，召回率recall，分别定义如下：

　　其中，precision表示的是预测为阳性的样本中有多少是预测对的，recall表示有多少阳性样本被预测了出来，这二者通常是此消彼长，需要根据具体场合看用哪个指标。

　　accuracy表示预测准确的占所有的样本的比例。

　　Roc图表示的横坐标是Fp rate, 纵坐标是Tp rate。一个分类器的Fp rate越小，Tp rate越大，这个分类器就越好，对应在ROC图中就是靠近左上角。最完美的点是（0，1），最差的点是（1，0）。

　　如上所示，D是最好的，然后是A,B，然后是C，然后是F。AB之间比较就不好说了。

　　由于预测值是一个评分，还要通过选定一个阈值来将它划分成1还是0。我们按照预测值对样本降序排列，并且从上到下以预测值为阈值：

　　可以看出如果阈值选的不同，TP rate和FP rate是不同的。每选一个阈值，就能在ROC图上确定一个点，这样就能得到一条ROC曲线：

　　AUC是ROC曲线与横坐标轴围成的面积。数学上可以证明，AUC值等于一个概率，即在前面已经排序的样本列表中，随机选取一个正样本，再随机选取一个负样本，正样本排在负样本之前的概率。即AUC表征了正样本排在负样本前面的能力，并且与阈值选取无关，而与模型本身有关。

以上是关于CTR预估评价指标介绍的主要内容，如果未能解决你的问题，请参考以下文章