机器学习常用算法与辅助函数公式

Posted 2020-11-22 koi504330

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习常用算法与辅助函数公式相关的知识，希望对你有一定的参考价值。

1.去量纲

标准化：x=(x-min(x))/(max(x)-min(x)) 特点：容易受极端值影响，需要先去除极端值。

归一化：z-score=（x-均值）/标准差特点：不受极端值影响，但是计算量较大

2.辅助函数

Sigmoid函数： 1 / （1+e^-x）发生的概率 1 / （1+e^-x）不发生的概率

证据权重(WOE值)： woe(x_i)=ln（B₁/B_总)/(G₁/G总) 其中: x=某一特征 B₁₌x特征中好客户中的一组的样本数 G₁₌x特征中坏客户中的一组的样本数。

信息价值（IV值): IV_i= （B₁/B_总)-(G₁/G总) * woe(x_i) 而得到每一组的IV值之后，所有IV值相加就得到整个变量X的IV值。

特点：再公式中B₁或者G_1，任一组样本数不能为0，否者 IV值=-∞ 或者 ∞ 变得毫无意义。

一般情况下：无预测能力←0.03←低→0.09←中→0.29←高→0.49→极高

3.模型方程

评分卡计算方程： odds为good用户概率（p）与bad用户概率（1-p）的比值。

评分卡设定的分值刻度可以通过将分值表示为比率对数的现行表达式来定义。公式如下：

score总=A+B∗ln(odds)

反过来： odds为bad用户概率（p）与good用户概率（1-p）的比值。

那么： score总=A-B∗ln(odds)

以第二个方程为例： 其中，A和B是常数。式中的负号可以使得违约概率越低，得分越高。通常情况下，这是分值的理想变动方向，即高分值代表低风险，低分值代表高风险。逻辑回归模型计算比率如下所示：

技术图片

其中，用建模参数拟合模型可以得到模型参数β0，β1，…，βn。

式中的常数A、B的值可以通过将两个已知或假设的分值带入计算得到。

首先我们需要设定两个假设：

(1）给某个特定的比率设定特定的预期分值；

（2）确定比率翻番的分数（PDO）根据以上的分析，我们首先假设比率为x的特定点的分值为P。则比率为2x的点的分值为P+PDO。代入式中，可以得到如下两个等式：

技术图片

解上述两个方程中的常数 A 和 B, 可以得到：

B = P D O/ l o g ( 2 )

A = P + B l o g (x)

假设 设定评分卡刻度使得比率为{1:20}（违约正常比）时的分值为50分，PDO为10分，代入式中求得：B=14.43，A=6.78 则分值的计算 式可表示为：

技术图片

评分卡刻度参数A和B确定以后，就可以计算比率和违约概率，以及对应的分值了。通常将常数A称为补偿，常数B称为刻度。则评分卡的分值可表达为：

技术图片

如果x1…xn变量取不同行并计算其WOE值，式中表示的标准评分卡格式，基础分值等于(A−Bβ0)；由于分值分配公式中的负号，模型参数β0，β1，…，βn也应该是负值；变量xi的第j行的分值取决于以下三个数值：

技术图片

最小二乘矩阵方程：（求回归）

W=(X^T*X)^-1* X^T *Y 其中：X^T表示转置 (X^T*X)^-1 表示逆矩阵

岭回归矩阵方程：

w=(X^T * X+aI)^-1 * X^T* Y 其中 a是?定义参数， I则是单位矩阵

梯度下降矩阵方程：θ=θ-σX^T(X*θ-Y) / m 其中 θ 为假设系数 σ为学习率（步长）

梯度下降逻辑回归： θ=θ-σX^T(Sigmoid*(X*θ)-Y) / m

未完待续-----

以上是关于机器学习常用算法与辅助函数公式的主要内容，如果未能解决你的问题，请参考以下文章