如何用spss做probit回归和非线性回归？

Posted 2023-04-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何用spss做probit回归和非线性回归？相关的知识，希望对你有一定的参考价值。

Probit回归：
Probit回归全称probability unit，翻译过来叫做概率单位法，蛮拗口的一个名字。这个回归主要用于研究半数效量用的。直白一点说，就是比方你拿一种药去药蟑螂，你想知道你用多少药能药死多少蟑螂，那你就可以用probit回归来估计这个数。Probit回归经常拿来和logistic回归作比较，通常对于二分类变量来说，这两个回归计算出来的概率是非常相似的。（虽然logistic回归最后判断的是是或否，但是它也需要计算一个概率来判断这个结果倒是是还是否。）而且如果有一点数学基础的话，会知道，这两个回归画出来的图也非常像，只是logistic回归画出来的Z型稍微平缓一些。
那么这两个回归到底有什么区别呢？通常来说区别不大。最重要的一个区别在于probit回归适用于呈正态分布的数据，logistic回归适用于呈logistic分布的数据。不过这个区别也蛮微妙的，因为正态分布和logistic分布还蛮像的。所以大概来讲，到底是选择哪个分布更多的还是一种个人喜好。
但是大家都知道啊，logistic分布比probit分布可有名多了。如果说十个从事大数据的人里边有五个人知道logistic回归，那么有三个知道probit回归就不错了。在我们ppv课网站的spss视频教学里边，绝大部分都会讲到logistic回归，但是probit回归就不见得有人讲了。（顺便说一句，我个人最喜欢spss从入门到精通这套课程，刚入门的时候就是听得这套课。强烈推荐大家去听一听）。
那么这是什么原因呢？这绝不是probit不好用的原因。主要原因有两个，第一，logistic回归形式比较多。二分类，有序多分类，无序多分类，这些logistic回归都可以做。这就好像我们ppv课网站提供了spss，sas，r，matlab，hadoop等等视频，你可以从零基础学到精通级别，肯定比较受欢迎哈。第二，则归功于logistic回归的易解释性。Logistic回归提供了一个很重要的参数，OR值，这个值很直接的告诉你处于某个状态比处于另一个状态时因变量发生的概率增加了多少倍。这当然是一个很重要很直观的参数啦。就好像你每学一段时间以后，我们ppv课网站告诉你你的知识积累比之前增加了多少倍多少倍，这个肯定很重要撒。
因此呢，logistic回归就比probit回归应用的广泛了。不过这并不是说logistic回归就比probit回归好。实际上，两种回归拟合的方程几乎一样好。不过，再怎么几乎一样，那也肯定是有所不同的。可惜这种不同用你的肉眼一般是看不出来的，至于怎么看，下边在讲。
好了，现在大概就介绍完probit回归的背景知识了（绝对没有凑字数）。现在我们开始操作。
首先假设一个情景，假设我们ppv课网站打算增加一定的课程，达到收视率增加百分之二十的目的，我们就有了三个变量，课程增加的数目（假设分为3,6,9三个水平），各个增加水平的课程数（比方加3节课，6节课，9节课的都是十个课程），各个水平的课程的收视率增加达到百分之二十的课程数（假设分别是3，5，6）。（这段真的有点绕，最好读两遍保证能看懂哪个变量是表示的什么意思）。
那么我们就有了一个3*3的数据集，选择菜单分析——回归——probit，打开主面板，响应频率里选我们各个水平收视率增加达到百分之二十的课程数（也就是我们做实验的课程里边有多少课程成功达到了收视率增加的目标），观测值汇总里边选择各个增加水平的总课程数，再下边有一个因子，一个协变量。我们的自变量课程增加的水平是三节课一个台阶，所以我们要选到协变量里边去哈。（如果你的自变量是连续型变量，那你就得在因子下边的那个定义范围里边选好范围。）此外协变量下边有一个转换下拉菜单，这个菜单有三种方法，除了“无”以外，还有两种对数转换，你可以试试，你的数据到底怎么转换效果最好。完了以后，在左下边还有一个模型：概率/logit，这个单选框里默认的是概率。也就是默认数据分布是正态的。这个也不用管它。
然后点开选项，勾选频率，信仰置信区间，继续，确定。
然后就可以看结果了。参数值和卡方检验这两个表会告诉你这个模型有没有意义，适不适合用probit回归（如果想和logistic回归作比较，就可以用这里的拟合度检验检测）。此外置信限度这个很大的表会告诉你假如你想要你的课程收视率增加的概率是百分之八十的时候，你的课程要增加多少节课这么个数据。它大概是以百分之五为精度的。那如果我想知道增加百分之八十三，需要加多少节课的话，那么我们就要用参数估计值里的参数进行计算了。
非线性回归
自然界中既然有线性回归，那么理所当然的，也会有非线性回归。不过，人类对于非线性回归的研究远远不如对线性回归的研究来的深刻，广泛。不信你看一看你的spss教科书，线性回归的内容可以洋洋洒洒写一章，非线性回归确占一小节，还往往是比较薄的一节。
线性回归指的是y=a+a1*x1+a2*x2…这种形式的方程，非线性回归包含的方程类型就多得多了。常见的有，幂函数，指数函数，双曲函数，对数函数等等。我们先举个例子。假设想拟合ppv课授课老师的数目和网站受欢迎程度的关系。选择分析——回归——非线性。打开主对话框。因变量选择网站受欢迎程度，模型表达式需要自己编辑。（我就挺怵这个的），首先我们知道，我们肯定不可能看一眼就看出我们的数据是什么样子的模型，我们可以通过图形——图表构建程序里边，画出散点图，通过散点图大致判断我们的模型符合什么样的方程，然后在进一步使用（或者直接使用）参数估计法（前面讲过的），估计出它的表达式。
估计出表达式以后，就可以编辑模型表达式了。编辑好以后看左下角的参数那一栏。你的模型里边的参数是需要首先定义一个初始值的。这个初始值要尽量靠近真实值，如果离真实值太远的话，也会影响到模型的准确度。看到这里，可能你要发脾气了，这是个什么模型？怎么这么麻烦？！！要是我知道模型，知道初始值，那我还需要做分析吗啊？！！唉，我也没办法，非线性回归就是这么个玩意，总之你还是拿起你的笔，根据你的模型代几组数据算一算大概的初始值吧。毕竟为了最后的精度嘛。
输好初始值以后，打开保存对话框，勾选预测值，残差。继续，其他的默认就可以。点确定。
输出的参数估计值会给出参数，套到你的模型里就可以。注意看方差分析表下边的标注，里边会给出决定系数R^2，这个R^2通常比参数估计法里的大，也就是说，非线性回归的精度往往比参数估计法的大，模型拟合的好。（废话，要是非线性回归一点优势也没有，还有谁肯研究啊。）
上边只是简单介绍了一点非线性回归的方法。实际生活中，非线性回归比线性回归远远复杂的多，不是一句两句就能说清楚的，此外，还有一种很普遍的办法是通过数学公式把非线性方程转化成线性方程。这样就能大大降低方程的复杂性。在这里，给大家总结了几个常见的公式。参考技术A

那么这两个回归到底有什么区别呢？通常来说区别不大。最重要的一个区别在于probit回归适用于呈正态分布的数据，logistic回归适用于呈logistic分布的数据。不过这个区别也蛮微妙的，因为正态分布和logistic分布还蛮像的。所以大概来讲，到底是选择哪个分布更多的还是一种个人喜好。

但是大家都知道啊，logistic分布比probit分布可有名多了。如果说十个从事大数据的人里边有五个人知道logistic回归，那么有三个知道probit回归就不错了。在我们ppv课网站的spss视频教学里边，绝大部分都会讲到logistic回归，但是probit回归就不见得有人讲了。（顺便说一句，我个人最喜欢spss从入门到精通这套课程，刚入门的时候就是听得这套课。强烈推荐大家去听一听）。

那么这是什么原因呢？这绝不是probit不好用的原因。主要原因有两个，第一，logistic回归形式比较多。二分类，有序多分类，无序多分类，这些logistic回归都可以做。这就好像我们ppv课网站提供了spss，sas，r，matlab，hadoop等等视频，你可以从零基础学到精通级别，肯定比较受欢迎哈。第二，则归功于logistic回归的易解释性。Logistic回归提供了一个很重要的参数，OR值，这个值很直接的告诉你处于某个状态比处于另一个状态时因变量发生的概率增加了多少倍。这当然是一个很重要很直观的参数啦。就好像你每学一段时间以后，我们ppv课网站告诉你你的知识积累比之前增加了多少倍多少倍，这个肯定很重要撒。

参考技术B Probit回归：
Probit回归全称probability unit，翻译过来叫做概率单位法，蛮拗口的一个名字。这个回归主要用于研究半数效量用的。直白一点说，就是比方你拿一种药去药蟑螂，你想知道你用多少药能药死多少蟑螂，那你就可以用probit回归来估计这个数。Probit回归经常拿来和logistic回归作比较，通常对于二分类变量来说，这两个回归计算出来的概率是非常相似的。（虽然logistic回归最后判断的是是或否，但是它也需要计算一个概率来判断这个结果倒是是还是否。）而且如果有一点数学基础的话，会知道，这两个回归画出来的图也非常像，只是logistic回归画出来的Z型稍微平缓一些。
那么这两个回归到底有什么区别呢？通常来说区别不大。最重要的一个区别在于probit回归适用于呈正态分布的数据，logistic回归适用于呈logistic分布的数据。不过这个区别也蛮微妙的，因为正态分布和logistic分布还蛮像的。所以大概来讲，到底是选择哪个分布更多的还是一种个人喜好。
但是大家都知道啊，logistic分布比probit分布可有名多了。如果说十个从事大数据的人里边有五个人知道logistic回归，那么有三个知道probit回归就不错了。在我们ppv课网站的spss视频教学里边，绝大部分都会讲到logistic回归，但是probit回归就不见得有人讲了。（顺便说一句，我个人最喜欢spss从入门到精通这套课程，刚入门的时候就是听得这套课。强烈推荐大家去听一听）。
那么这是什么原因呢？这绝不是probit不好用的原因。主要原因有两个，第一，logistic回归形式比较多。二分类，有序多分类，无序多分类，这些logistic回归都可以做。这就好像我们ppv课网站提供了spss，sas，r，matlab，hadoop等等视频，你可以从零基础学到精通级别，肯定比较受欢迎哈。第二，则归功于logistic回归的易解释性。Logistic回归提供了一个很重要的参数，OR值，这个值很直接的告诉你处于某个状态比处于另一个状态时因变量发生的概率增加了多少倍。这当然是一个很重要很直观的参数啦。就好像你每学一段时间以后，我们ppv课网站告诉你你的知识积累比之前增加了多少倍多少倍，这个肯定很重要撒。
因此呢，logistic回归就比probit回归应用的广泛了。不过这并不是说logistic回归就比probit回归好。实际上，两种回归拟合的方程几乎一样好。不过，再怎么几乎一样，那也肯定是有所不同的。可惜这种不同用你的肉眼一般是看不出来的，至于怎么看，下边在讲。
好了，现在大概就介绍完probit回归的背景知识了（绝对没有凑字数）。现在我们开始操作。
首先假设一个情景，假设我们ppv课网站打算增加一定的课程，达到收视率增加百分之二十的目的，我们就有了三个变量，课程增加的数目（假设分为3,6,9三个水平），各个增加水平的课程数（比方加3节课，6节课，9节课的都是十个课程），各个水平的课程的收视率增加达到百分之二十的课程数（假设分别是3，5，6）。（这段真的有点绕，最好读两遍保证能看懂哪个变量是表示的什么意思）。
那么我们就有了一个3*3的数据集，选择菜单分析——回归——probit，打开主面板，响应频率里选我们各个水平收视率增加达到百分之二十的课程数（也就是我们做实验的课程里边有多少课程成功达到了收视率增加的目标），观测值汇总里边选择各个增加水平的总课程数，再下边有一个因子，一个协变量。我们的自变量课程增加的水平是三节课一个台阶，所以我们要选到协变量里边去哈。（如果你的自变量是连续型变量，那你就得在因子下边的那个定义范围里边选好范围。）此外协变量下边有一个转换下拉菜单，这个菜单有三种方法，除了“无”以外，还有两种对数转换，你可以试试，你的数据到底怎么转换效果最好。完了以后，在左下边还有一个模型：概率/logit，这个单选框里默认的是概率。也就是默认数据分布是正态的。这个也不用管它。
然后点开选项，勾选频率，信仰置信区间，继续，确定。
然后就可以看结果了。参数值和卡方检验这两个表会告诉你这个模型有没有意义，适不适合用probit回归（如果想和logistic回归作比较，就可以用这里的拟合度检验检测）。此外置信限度这个很大的表会告诉你假如你想要你的课程收视率增加的概率是百分之八十的时候，你的课程要增加多少节课这么个数据。它大概是以百分之五为精度的。那如果我想知道增加百分之八十三，需要加多少节课的话，那么我们就要用参数估计值里的参数进行计算了。
非线性回归
自然界中既然有线性回归，那么理所当然的，也会有非线性回归。不过，人类对于非线性回归的研究远远不如对线性回归的研究来的深刻，广泛。不信你看一看你的spss教科书，线性回归的内容可以洋洋洒洒写一章，非线性回归确占一小节，还往往是比较薄的一节。
线性回归指的是y=a+a1*x1+a2*x2…这种形式的方程，非线性回归包含的方程类型就多得多了。常见的有，幂函数，指数函数，双曲函数，对数函数等等。我们先举个例子。假设想拟合ppv课授课老师的数目和网站受欢迎程度的关系。选择分析——回归——非线性。打开主对话框。因变量选择网站受欢迎程度，模型表达式需要自己编辑。（我就挺怵这个的），首先我们知道，我们肯定不可能看一眼就看出我们的数据是什么样子的模型，我们可以通过图形——图表构建程序里边，画出散点图，通过散点图大致判断我们的模型符合什么样的方程，然后在进一步使用（或者直接使用）参数估计法（前面讲过的），估计出它的表达式。
估计出表达式以后，就可以编辑模型表达式了。编辑好以后看左下角的参数那一栏。你的模型里边的参数是需要首先定义一个初始值的。这个初始值要尽量靠近真实值，如果离真实值太远的话，也会影响到模型的准确度。看到这里，可能你要发脾气了，这是个什么模型？怎么这么麻烦？！！要是我知道模型，知道初始值，那我还需要做分析吗啊？！！唉，我也没办法，非线性回归就是这么个玩意，总之你还是拿起你的笔，根据你的模型代几组数据算一算大概的初始值吧。毕竟为了最后的精度嘛。
输好初始值以后，打开保存对话框，勾选预测值，残差。继续，其他的默认就可以。点确定。
输出的参数估计值会给出参数，套到你的模型里就可以。注意看方差分析表下边的标注，里边会给出决定系数R^2，这个R^2通常比参数估计法里的大，也就是说，非线性回归的精度往往比参数估计法的大，模型拟合的好。（废话，要是非线性回归一点优势也没有，还有谁肯研究啊。）
上边只是简单介绍了一点非线性回归的方法。实际生活中，非线性回归比线性回归远远复杂的多，不是一句两句就能说清楚的，此外，还有一种很普遍的办法是通过数学公式把非线性方程转化成线性方程。这样就能大大降低方程的复杂性。在这里，给大家总结了几个常见的公式。

probit回归与logistic回归有啥区别

probit与logistic的区别为：意思不同、用法不同、侧重点不同。

一、意思不同

1、probit：概率单位。

2、logistic：数理（符号）逻辑。

二、用法不同

1、probit：

probit模型服从正态分布。两个模型都是离散选择模型的常用模型。但logit模型简单直接，应用更广。而且，当因变量是名义变量时，Logit和Probit没有本质的区别，一般情况下可以换用。区别在于采用的分布函数不同，前者假设随机变量服从逻辑概率分布，而后者假设随机变量服从正态分布。

2、logistic：Logit模型是最早的离散选择模型，也是目前应用最广的模型。Logit模型是Luce（1959）根据IIA特性首次导出的；Marschark（1960）证明了Logit模型与最大效用理论的一致性；Marley（1965）研究了模型的形式和效用非确定项的分布之间的关系。

三、侧重点不同

1、probit：根据常态频率分配平均数的偏差计算统计单位。

2、logistic：离散选择法模型之一，Logit模型是最早的离散选择模型。

参考技术A 　　probit回归和logistic回归几乎可以用于相同的数据，对于二分类因变量，这两种方法的结果十分类似。那他们到底有什么区别呢？

　　如果从分布角度来讲，logit函数和probit的函数几乎重叠，但反映的含义不同，logit等于p/（1-p），这里p是结局发生的概率，而 probit的函数是F-1（p），注意-1是上标。F是累积的标准正态分布函数，所以F-1就是累积标准正态分布函数的逆函数或反函数。

　　从解释的角度来讲，logit更容易理解一些，因为p/（1-p）就是我们常说的odds，两个odds相比就是odds ratio，也就是我们最常用的OR值。所以当我们做出结果后，logistic回归所反应的实际意义就非常直观。而相比之下，probit的含义表示自变量对累积标准正态分布函数的逆作用，这个就太让人看不懂了。当然，实际上我们也可以通过正态分布值求出probit回归中的p，作为概率预测，只是比 logistic回归要稍微麻烦一些。

　　但这两个方法之间也是有关联的，通常情况下，probit回归估计出的参数值乘以1.814，大致会等于logistic回归中的参数值。

　　实际中具体选择哪个方法呢？据笔者所查阅的文献，尚未发现有理论依据，更多的仍是根据个人习惯。从文献的应用情况来看，logistic回归的应用远远多于 probit回归，这主要是因为logistic回归的易解释性，而不是logistic回归比probit回归更好或更适合数据。

　　但 probit回归并不是说就要被logistic回归替代了，从预测的角度来看，probit回归还是有较强的使用价值的。其预测概率效果与 logistic回归一样的好。如果你确实想知道到底你的数据用哪一个方法好，也不是没有办法，你可以看一下你的残差到底是符合logit函数呢还是符合 probit函数，当然，凭肉眼肯定是看不出来的，因为这两个函数本来就很接近，你可以通过函数的假定，用拟合优度检验一下。但通常，估计不会有人非要这么较真，因为没有必要。如果你的因变量是二分类，你无论用哪种方法，都不能说错。萝卜青菜，各有所爱而已。本回答被提问者和网友采纳参考技术B

Logistic回归比probit回归的应用广泛，同一数据两者的结果非常接近。

选择使用哪种方法没有统一的标准，主要看专业领域更常使用哪种方法。

Probit最常使用的是二分类probit，可在spssau中在线分析。

参考技术C 区别：
如果从分布角度来讲，logit函数和probit的函数几乎重叠，但反映的含义不同，logit等于p/（1-p），这里p是结局发生的概率，而 probit的函数是F-1（p），注意-1是上标。F是累积的标准正态分布函数，所以F-1就是累积标准正态分布函数的逆函数或反函数。
从解释的角度来讲，logit更容易理解一些，因为p/（1-p）就是我们常说的odds，两个odds相比就是odds ratio，也就是我们最常用的OR值。所以当我们做出结果后，logistic回归所反应的实际意义就非常直观。而相比之下，probit的含义表示自变量对累积标准正态分布函数的逆作用，这个就太让人看不懂了。当然，实际上我们也可以通过正态分布值求出probit回归中的p，作为概率预测，只是比 logistic回归要稍微麻烦一些。
关联：这两个方法之间是有关联的，通常情况下，probit回归估计出的参数值乘以1.814，大致会等于logistic回归中的参数值。
probit回归模型：最简单的probit模型就是指被解释变量Y是一个0,1变量，事件发生地概率是依赖于解释变量，即P(Y=1)=f(X)，也就是说,Y=1的概率是一个关于X的函数，其中f(.)服从标准正态分布。

logistic回归模型：(logistic regression)属于概率型非线性回归，它是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。在流行病学研究中，经常需要分析疾病与各危险因素之间的定量关系，为了正确说明这种关系，需要排除一些混杂因素的影响。