读书笔记Day4 | 周志华《机器学习》之回归分析

Posted brainnews认知心理

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了读书笔记Day4 | 周志华《机器学习》之回归分析相关的知识,希望对你有一定的参考价值。




作者/周毅航

编辑/小时


脑机接口研习社将推出一系列文章,每篇文章将分成两个部分的内容,第一部分是记录小编读书过程的学习笔记,第二部分是思考每个章节的内容可以如何应用在脑机接口领域


周志华老师的《机器学习》(西瓜书)是机器学习领域的经典入门教材之一,但这不仅仅只是一本入门书。书的原话:"就算是领域内的专家来看这本书,依旧是会有所收获的,因此这本书是需要精读的,一遍肯定是不够的"。



往期内容(持续更新)




关注公众号“脑机接口研习社”,后台回复“机器学习”,免费获得《机器学习》(西瓜书)的PDF文件。

Day 4


线性模型



线性模型(linearmodel):试图学得一个通过属性的线性组合来进行预测的函数:



向量形式为:


读书笔记Day4 | 周志华《机器学习》之回归分析



线性回归



线性回归——用线性模型进行回归学习

 

线性回归(linearregression):试图学得一个线性模型以尽可能准确地预测实值(R)的输出标记。按照输入属性数目的多少,可以有以下几种分类:

 

输入属性的数目只有一种时

a. 属性值存在“序(order)”的关系,可通过连续化将其转化为连续值,比如:身高的“高”和“低”可以转化为{(1,0),(0,0)}。


b. 属性值不存在“序(order)”的关系,可假定k个属性值,则通常转化为k维向量。比如:西瓜、南瓜、冬瓜可以转化为{(0,0,1),(0,1,0),(1,0,0)}。

 

线性回归试图学到的内容可用公式表示:


读书笔记Day4 | 周志华《机器学习》之回归分析



如何确定参数w和b?

均方误差的性能度量来衡量f(x)与y之间的差别,然后试图使均方误差最小化,来求解w和b。基于均方误差最小化来进行模型求解的方法是最小二乘法(least square method)。求解w和b,使得均方误差最小化的过程称为线性回归模型的最小二乘“参数估计(parameter estimation)”。



输入属性的数目有多个时——多元线性回归(multivariatelinear regression)


可以表示为:

读书笔记Day4 | 周志华《机器学习》之回归分析


多元线性回归,同样用最小二乘法来求解w和b。


现实任务里,变量的数目会超过样例数,比如生物信息学的基因芯片数据中常有成千上万个属性,但往往只有几十、上百个样例,这会导致可接触多个w,(可类比:解线性方程组时,如果因变量过多,会解出多种解)。


这些w都能使均方误差最小化,选择哪一个解作为输出将由学习算法的归纳偏好决定,常见的做法是引入正则化(regularization)对于真实标记y是实数R的样例(x,y),当令线性模型

读书笔记Day4 | 周志华《机器学习》之回归分析

 

预测值逼近y时,得到线性回归模型:


读书笔记Day4 | 周志华《机器学习》之回归分析


 

令线性模型预测值逼近y的“衍生物”,比如ln y,则变成对数线性回归(log-linear regression)


读书笔记Day4 | 周志华《机器学习》之回归分析


读书笔记Day4 | 周志华《机器学习》之回归分析


 一般情况,考虑单调可微函数g(`),可以得到广义线性模型(generalizedlinear model)


读书笔记Day4 | 周志华《机器学习》之回归分析



 

广义线性模型的参数估计通常通过加权最小二乘法或极大似然法进行。


Note: 

线性模型、广义线性模型、线性回归、多元线性回归的联系与区别:

 

线性回归和逻辑斯特回归都是特殊的广义线性模型。

 

a. 线性回归模型:


适用于自变量X和因变量Y为线性关系,具体来说,画出散点图可以用一条直线来近似拟合。

模型可以表达为:

读书笔记Day4 | 周志华《机器学习》之回归分析


其中读书笔记Day4 | 周志华《机器学习》之回归分析为随机误差,MVN为多元正态分布、


线性回归模型有几个基本假设:


自变量之间无多重共线性;随机误差随从0均值,同方差的正态分布;随机误差项之间无相关关系。参数使用最小二乘法进行估计。假设检验有两个,一个是参数的检验,使用t检验;另一个是整个模型的检验,使用F检验,在构造F统计量时,需要把模型的平方和进行分解,会使用到方差分析。

 

此外,判定系数R2和修正判定系数都需要使用到方差分析的结果。

 

b. 线性混合模型:

在线性模型中加入随机效应项。

 

模型可以表达为:

读书笔记Day4 | 周志华《机器学习》之回归分析

其中Y, Xβ的意义和线性回归的意义相同,Xβ是固定效应部分,Zγ是随机效应部分,G和R都是协方差矩阵。同时假定,即G和R之间无相关关系。为了使用上的麻烦,统计学家提供了几种协方差的形式供大家使用。


c. 广义线性模型:

广义线性模型,是为了克服线性回归模型的缺点出现的,是线性回归模型的推广。首先自变量可以是离散的,也可以是连续的。离散的可以是0-1变量,也可以是多种取值的变量。与线性回归模型相比较,有以下推广:

 (1)随机误差项不一定服从正态分布,可以服从二项、泊松、负二项、正态、伽马、逆高斯等分布,这些分布被统称为指数分布族。

 (2)引入联接函数g(.)。因变量和自变量通过联接函数产生影响,即y=g(Xβ),联接函数满足单调,可导。常用的联接函数有恒等,对数,幂函数,平方根,logit等。

 

根据不同的数据,可以自由选择不同的模型。大家比较熟悉的Logit模型就是使用Logit联接、随机误差项服从二项分布得到模型。


参考:

https://bbs.pinggu.org/thread-2996069-1-1.html

简单的线性回归和多元线性回归:

可参考如下链接:https://blog.csdn.net/weixin_40014576/article/details/79918819

 

逻辑斯特回归



对数几率回归/逻辑斯特回归——使用线性模型做分类任务学习

 

如果考虑二分类任务,可知输出标记y∈{0,1},而线行回归模型产生的预测值z=wTx+b中的z属于实数值R,所以要将z转化为0或1.

 

如何转化呢?

 

理想的转化函数是单位阶跃函数(unit-step function)

 

读书笔记Day4 | 周志华《机器学习》之回归分析


但这个函数不能直接代入到这个公式里

读书笔记Day4 | 周志华《机器学习》之回归分析


所以,要找一个替代函数(surrogate function)——对数几率函数(logistic function)

 

读书笔记Day4 | 周志华《机器学习》之回归分析


读书笔记Day4 | 周志华《机器学习》之回归分析

对数几率函数是一种Sigmoid函数


Note:

Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线。在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的激活函数,将变量映射到0,1之间。

读书笔记Day4 | 周志华《机器学习》之回归分析

参考:

https://baike.baidu.com/item/Sigmoid%E5%87%BD%E6%95%B0/7981407?fr=aladdin

 

将对数几率函数代入

读书笔记Day4 | 周志华《机器学习》之回归分析

 

得到:

读书笔记Day4 | 周志华《机器学习》之回归分析



这是在用线性回归模型的预测结果去逼近真实标记的对数几率,对应的模型是对数几率回归或逻辑斯特回归(logisticregression)。不仅可以预测出类别,还可得到近似概率预测。对数几率回归确定参数w和b的方法是:极大似然法(maximumlikelihood method)。


思考:如何与脑机接口结合


regression是一种又古老又新颖的方法和思考模式,经久不衰,常用常新。 今天介绍这样一篇文章,文章题目是:

【Error CorrectionRegression Framework for Enhancing the Decoding Accuracies of Ear-EEGBrain–Computer Interfaces】

该文章于2020年发表在IEEETransactions on Cybernetics (IF=11)上。 我们以这篇文章为例,看看regression在脑机接口的可能用处。
 
| 这篇文章的主要内容是:

耳脑电图(ear-EEG)是有前途的、实用的脑机接口(BCI)工具,因为它比典型的头皮脑电图系统更低调、舒适且可移动。 然而,ear-EEG要充分获取信息丰富的大脑信号却具有电极位置的自然约束。例如,位置只能限制在耳朵内或耳朵周围。

在不利用耳朵周围颞叶上的脑信号的特定BCI范例中,要获得可靠的耳脑电图性能是很困难的。例如,主要在枕骨区域产生的稳态视觉诱发电位(SSVEP)在耳脑电图中具有明显的衰减和失真幅度。

因此,对于基于ear-EEG的SSVEP BCI而言,保持高水平的解码精度是具有挑战却又必不可少的。 在本文中,作者首先研究线性和非线性的回归方法,以通过利用枕骨区域上估计的目标EEG信号来提高有关SSVEP范例的EEG脑电图的解码精度。
然后,作者研究了一种集成方法来考虑回归方法的prediction variability。

最后,作者提出了一个误差校正回归(error correctionregression , ECR)框架,以通过添加其他非线性回归过程(比如,核岭回归kernel ridge regression)来减少预测误差。

作者根据单个session,session-to-session的传输以及subject-transfer的解码来评估ECR框架。作者还以短时窗口大小验证了所提出框架的在线解码能力。观察到的平均准确度为91.11±9.14%,90.52±8.67%,86.96±12.13%和78.79±12.59%。
 
这项工作旨在增强基于耳脑电图的 SSVEP 解码性能。

作者的主要概念是利用基于耳脑电图和头皮脑电图信号之间的线性和非线性回归模型的枕部区域来估计脑电图信号。在 α 衰减、听觉开始和失配负性反应范式中(alpha attenuation, auditory onset, and mismatch-negativity response paradigms),可以从耳脑电图中预测大部分头皮脑电图。还可根据互信息理论制定耳脑电图和头皮脑电图之间的线性关系,基于互信息理论的预测导致了作者在实验中使用的多元线性回归(MLR) 方法。

通常情况下,线性回归模型的预测精度会因训练数据中自变量的噪声而降低。为了最小化这种影响,可以通过添加收缩量来使用正则化技术(例如,l1- 和 l2 -norm 正则化)。

此外,线性方法是真实模型的粗略近似,因为由于非线性现象,自然界中会出现许多复杂而有趣的现象。
在与BCI的研究中,采用了正则化和非线性技术,例如最小绝对收缩和选择算子 (least absolute shrinkage and selection operator,LASSO)、岭回归 (ridge regression,RR) 和核RR (kernel KRR)。

为了更准确和可靠的预测,可以考虑非线性特性。据作者所知,本文是首次尝试在SSVEP 范式中增强耳脑电图性能,并利用了耳脑电图和头皮脑电图之间的非线性关系。

作者率先提出了基于耳脑电图的SSVEP BCI 纠错回归 (error correction regression,ECR) 框架,该框架可以通过添加额外的非线性回归过程来估计和纠正错误。这是第一个证明非线性预测可用于实时耳脑电BCI的研究。

作者研究了基于回归方法(即 MLR、RR和 KRR)的信号估计方法。作者利用l2 -norm 正则化,因为 l1 -norm 正则化通常会导致当自变量之间存在高相关性时相应的系数趋于零(例如,非常相邻位置的耳脑电图信号)。

作者还研究了基于集成回归(ensemble regression,ER) 的方法来考虑上述方法的预测可变性。作者提出了一个ECR 框架,该框架具有额外的非线性回归过程(基于 KRR),用于估计和纠正先前回归过程的错误。
虽然用机器学习校正预测误差的概念并不新鲜,但作者仅使用耳脑电图系统而不使用头皮脑电图系统基于非线性回归方法估计误差来校正误差,这种做法是新鲜的。

作者在单个会话解码、会话到会话传输解码、主题传输解码和在线解码(single session decoding, session-to-session transfer decoding, subject-transfer decoding, and online decoding)方面广泛评估了所提出的框架。

参考链接:

https://bbs.pinggu.org/thread-2996069-1-1.html

https://blog.csdn.net/weixin_40014576/article/details/79918819

https://baike.baidu.com/item/Sigmoid%E5%87%BD%E6%95%B0/7981407?fr=aladdin

参考文献:

Kwak N S, Lee S W. Error correction regression framework for enhancing the decoding accuracies of ear-EEG brain–computer interfaces[J]. IEEE transactions on cybernetics, 2019, 50(8): 3654-3667.

图源/百度百科,《机器学习》


读书笔记Day4 | 周志华《机器学习》之回归分析