Box-Cox变换

Posted shida-liu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Box-Cox变换相关的知识,希望对你有一定的参考价值。

简介

编辑
Box-Cox变换的一般形式为:
技术分享图片
式中
 技术分享图片 
为经Box-Cox变换后得到的新变量,
 技术分享图片 
为原始连续因变量,
 技术分享图片 
为变换参数。以上变换要求原始变量
 技术分享图片 
取值为正,若取值为负时,可先对所有原始数据同加一个常数
 技术分享图片 
使其
 技术分享图片 
为正值,然后再进行以上的变换。对不同的
 技术分享图片 
所作的变换不同。在
 技术分享图片 
时该变换为对数变换,
 技术分享图片 
时为倒数变换,而在
 技术分享图片 
时为平方根变换。Box-Cox变换中参数
 技术分享图片 
的估计有两种方法:(1)最大似然估计;(2)Bayes方法。通过求解
 技术分享图片 
值,就可以确定具体采用哪种变换形式。

变换过程

编辑
Box-Cox变换是对回归因变量Y的如下变换:
技术分享图片
在这里
 技术分享图片 
是一个待定变换参数。对于不同的
 技术分享图片 
,所作的变换也不相同,所以Box-Cox变换是一族变换,它包括了平方根变换(
 技术分享图片 
),对数变换(
 技术分享图片 
)和倒数变换(
 技术分享图片 
)等常用变换,对因变量的n个观测值
 技术分享图片 
,应用上述变换,可得变换后的向量
技术分享图片
我们要确定变换参数
 技术分享图片 
,使得
 技术分享图片 
满足
技术分享图片
即要求通过因变量的变换,使得变换过的向量
 技术分享图片 
与回归自变量具有线性相依关系,误差也服从正态分布.误差各分量是等方差且相互独立,故Box-Cox变换是通过参数
 技术分享图片 
的适当选择。达到对原来数据的“综合治理”,使其满足一个正态线性回归模型的所有假设条件。
用极大似然方法来确定
 技术分享图片 
,由于
 技术分享图片 
,故对固定的
 技术分享图片 
 技术分享图片 
 技术分享图片 
的似然函数为
技术分享图片
其中,
 技术分享图片 
为变换的Jacobi行列式
技术分享图片
 技术分享图片 
固定时,
 技术分享图片 
是不依赖于参数
 技术分享图片 
 技术分享图片 
的常数因子,
 技术分享图片 
的其余部分关于
 技术分享图片 
 技术分享图片 
求导数,令其等于零,可求得
 技术分享图片 
 技术分享图片 
的极大似然估计
技术分享图片
技术分享图片
残差平方和为
技术分享图片
对应的似然最大值为
技术分享图片
该式为
 技术分享图片 
的一元函数,通过求它的最大值来确定
 技术分享图片 
,因为
 技术分享图片 
是x的单调函数,问题可转化为求
 技术分享图片 
的最大值,对式(3)求对数,略去与
 技术分享图片 
无关的常数项,得
技术分享图片
技术分享图片
其中,
技术分享图片
技术分享图片
技术分享图片
式(4)对Box-Cox变换在计算机上实现带来很大的方便,因为我们只要求出残差平方和
 技术分享图片 
的最小值,就可以求出
 技术分享图片 
的最大值,虽然很难找出使
 技术分享图片 
达到最小值的
 技术分享图片 
的解析表达式,但是对一系列的
 技术分享图片 
给定值,通过最普通的求最小二乘估计的回归程序,很容易计算出对应的
 技术分享图片 
,画出
 技术分享图片 
关于
 技术分享图片 
的曲线,可在图上近似地找出
 技术分享图片 
达到最小值的
 技术分享图片 
Box-Cox变换变换的具体步骤如下:
(1)对给定的
 技术分享图片 
值,计算
 技术分享图片 
,如果
 技术分享图片 
,用式(6)计算,否则用式(7);
(2)利用式(5)计算残差平方和
 技术分享图片 
(3)对一系列的
 技术分享图片 
值,重复上述步骤,得到相应的残差平方和
 技术分享图片 
的一串值,以
 技术分享图片 
为横轴,作出相应的曲线,用直观的方法,找出使
 技术分享图片 
达到最小值的点
 技术分享图片 
(4)利用式(2),求出
 技术分享图片 

意义

编辑
Box-Cox变换的一个显著优点是通过求变换参数
 技术分享图片 
来确定变换形式,而这个过程完全基于数据本身而无须任何先验信息,这无疑比凭经验或通过尝试而选用对数平方根等变换方式要客观和精确。
Box-Cox变换的目的是为了让数据满足线性模型的基本假定,即线性、正态性及方差齐性,然而经Box-Cox变换后数据是否同时满足了以上假定,仍需要考察验证 [2]  。

以上是关于Box-Cox变换的主要内容,如果未能解决你的问题,请参考以下文章

如何在 R 中使用 Box-Cox 幂变换

在 R 中寻找 Box-Cox 变换的最佳 Lambda

R语言构建回归模型诊断(正态性无效)进行变量变换使用car包中的powerTransform函数对目标变量进行Box-Cox变换(Box–Cox transform to normality)

R box-cox变换 《回归分析与线性统计模型》page100

机器学习基础 - 偏度正态化以及 Box-Cox 变换

结构化数据转换(Box-Cox)