高级计量经济学 14:二值选择模型(基础)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了高级计量经济学 14:二值选择模型(基础)相关的知识,希望对你有一定的参考价值。

参考技术A

为了个人课题的进展,我会按照进度选择自己需要优先学习的内容😂不按照正常顺序的话不好意思啦!

此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。

我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分( 包括证明和正文 )做了修改。

目录

如果解释变量是离散的(比如,虚拟变量),这并不影响回归。但有时候被解释变量是离散的,而非连续的,这就让人很头疼了。

这类模型被称为 离散选择模型 (discrete choice model)或 定性反应模型 (qualitative response model)。另外,有时被解释变量只能取非负整数,比如企业在某个时间内所获得的专利数,这类数据被称为 计数数据 (count data),其被解释变量也是离散的。

考虑到离散被解释变量的特点, 通常不宜使用OLS进行回归

假设个体只有两种选择,比如 和 。是否考研,取决于毕业生毕业后的预期收入、个人兴趣等等,假设这些解释变量都被集成在向量 中。于是,最简单的模型为 线性概率模型 (Linear Probability Model,LPM):

对 的一致估计要求 (没有内生性)。然而,这里有几个问题:

尽管 LPM 有上面所提到的各种缺点,但它的优点是计算方便,而且容易分析经济意义。于是,为了使 的预测值总是介于 之间,我们对 LPM 进行拓展:在给定 的情况下,考虑 的两点分布概率为:

于是,函数 就被称为 连接函数 (link function),因为它将解释变量 与被解释变量 链接起来。由于 的取值要么为 0 ,要么为 1 ,于是 一定服从 两点分布

连接函数的选择有一定的灵活性,通过选择合适的连接函数 可以保证 ,并将 理解为 “ 发生的概率”,因为:

特别地,如果 是标准的正态分布累计函数(cdf),则:

那么这个模型就被称为 Probit模型 。如果 是 逻辑分布 (logistic distribution)的 cdf ,即:

那么这个模型就被称为 Logit模型 。

由于逻辑分布函数有解析表达式,而正态分布则没有,所以计算 Logit 模型通常比计算 Probit 模型更为方便。显然,这是一个 非线性模型 ,可以用最大似然法估计(MLE)。以 Logit 模型为例,第 个观测数据的概率密度为:

可以不分段地写成:

去对数,有:

假设样本中的个体相互独立,那么整个样本的 LLF (对数似然函数)为:

可以用 数值方法 求解这个非线性最大化问题。

需要注意的是,在这个非线性模型中,估计量 并非边际效应(marginal effects)。以 Probit 为例,可以计算:

在这里使用了微分的链式法则(chain rule),并假设了 为连续变量。由于 Probit 和 Logit 所使用的分布函数不同,所以其参数并不可以直接比较,而是需要 分别计算二者的边际效应,然后进行比较 。然而,对于非线性模型而言, 边际效应本身就不是常数 ,它随解释变量的变化而变化。常用的边际效应的概念有:

以上三种边际效应的计算结果可能会有差异。传统上,计算样本均值处的边际效应比较简单;然而,在非线性模型中,样本均值处的个体行为通常不能代表个体的平均行为(average behavior of individuals differes from behavior of the average individual)。 对于政策分析而言,平均边际效应比较有意义,也是 Stata 的默认方法

既然 并非边际效应,那他有什么经济意义呢?对于 Logit 模型,令 ,那么 ,由于 ,于是:

其中, 被称为 几率比 (odds ratio)或 相对风险 (relative risk)。如果几率比为2,意味着 的概率是 两倍。对第二个等式的右边求导,我们可以发现 的意义是:若 增加一个微小的量,那么 几率比的百分比 则会增加 。所以,可以把 视为 半弹性 ,即 增加一个单位引起 几率比的百分比 的变化。

还有另外一个生物统计领域特别喜欢使用的意义,考虑 从而 变成了 ,于是新几率比与原先几率比的比率可以写成:

所以, 表示 引起的 几率比的变化倍数

事实上,如果 比较小,两者方法是等价的( Taylor 展开)。然而,如果 必须变化一个单位(如性别、婚否),则应使用 。另外,Probit 模型无法对系数 进行类似的解释,这是 Probit 模型的劣势。

如何衡量一个非线性的模型的拟合优度呢?在不存在平方和分解公式的情况下, 是无法计算的,然而 Stata 依然汇报一个 准R2 (Pseudo ),由 McFadden (1974) 提出,其定义为:

其中, 为原模型的 LLF 最大值,而 为 以常数项为唯一解释变量 的 LLF 的最大值。由于 是离散的两点分布,似然函数 LF 的最大可能值为 1,于是 LLF 的最大可能值为 0,记为 。于是,必然有 ,于是 。

另外一类判断拟合优度的方法是计算 正确预测的百分比 ,实际上我认为目前机器学习领域的一系列常用的拟合优度如 MSE、MAPE 等都可以使用。

本节主要是复习 高级计量12 高级计量13 的内容

总的来说,要对 Probit 和 Logit 模型进行统计推断,需要作如下假设:

下面我们对两种检验:对 所有系数的联合检验 单个系数的独立检验 进行说明

(1) 所有系数的联合显著性

在使用 Stata 时,会汇报一个 LR 检验统计量,检验常数以外的所有其他系数的显著性(即所有系数的联合显著性)。在 高级计量13 ,我们已经推导出对 MLE 的系数的 LR 统计推断表达式:

上面的统计推断表达式仅依赖于 样本 i.i.d. 和 似然函数正确 这两个条件,前者是为了应用 大数定律 中心极限定理 ,后者是为了使用 信息矩阵等式

对于 Probit 和 Logit 模型,如果分布函数设定不正确,则为 准最大似然估计 (QMLE),那么我们要注意:

(2) 单个系数的显著性

在使用 Stata 时,也会汇报每个系数的 Std. err. 。如果要对单个系数的显著性进行推断,则需要使用 高级计量12 的 6.5.2 节中的推导:

a. 在抽取的样本为 i.i.d. 的假设下,我们用 大数定律 中心极限定理 可以推导出:

b. 在分布函数设定正确的假设下(于是可是使用 高级计量11 的 证明3 ),可以进一步推导出:

前面已经提到, 就算分布函数设定不正确 ,如果 成立,那么在 i.i.d. 的情况下,稳健标准误就等于 MLE 的普通标准误。所以上面的等式只要 成立就可以用了。

c. 如果 ,则 Probit 与 Logit 模型并不能得到对系数 的一致估计。此时统计推断并无意义。

欲从上面的式子单个系数进行检验,显然需要 未知的 真实参数 。于是我们可以根据 高级计量12 的 6.6 的方法去处理,这里就不再赘述了。

Python-ccs高级选择器 盒模型

css高级选择器与盒模型


脱离文档流 ,其中就是产生了BFC


1.组合选择器
- 群组选择器
/* 每个选择器位可以位三种基础选择器的任意一个, 用逗号隔开, 控制多个 */
div, #div, .div {color: red}

- 后代(子代)选择器
.sup .sub {
后代,sup一定是sub的父代(不一定是父集,sub就是被sup直接嵌套)
}
.sup > .sub {子代}

- 兄弟(相邻) 选择器
.up ~ .down {兄弟}
.up + .down {相邻}

- 交集选择器
section.ss#s {标签类名id名综合修饰}

2.复杂选择器的优先级
1.与修饰符位置无关
2.属性选择器与类选择器权重相同
3.id 无限大于 类[属性] 无效大于 标签
4.权重只与个数相关,个数(类型)均相同时,最后由位置决定

3.伪类选择器
a链接标签四大伪类
:link 初始状态
:hover(鼠标悬浮!!!!!!)
:active(鼠标点击中)
:visited

位置相关
:nth-child() | :last-child |:first-child先确定位置再匹配类型
:nth-of-type() 先匹配类型再确定位置

取反
选择器:not(修饰词) | div:not(:nth-child(2))

:before (盒子渲染前)
:after (盒子渲染后)
:focus (表单标签获取焦点)
:blur

4 精灵图:
<head>
<style type="text/css">
.lt1 {
width: 155px;
height: 48px;
background: url(‘img/bg.png‘) no-repeat;
background-position:0 0;
}
.lt1:hover {
cursor: pointer;
background: url(‘img/bg.png‘) no-repeat 0 -48px;
}
/*1.显示区域一定要与精灵图目标小图大小一致*/
/*2.通过背景图片定位方式将目标小图移至显示位置*/
background-position里通常是写负值
</style>
</head>
<body>
<!-- 精灵图: 各种小图拼接起来的一张大图 -->
<!-- 为什么使用精灵图: 减少请求次数, 降低性能的消耗, 二次加载图片资源时极为迅速(不在需要发送请求) -->
<div class="box"></div>
<div class="lt1"></div>
</body>

5.盒模型
盒子的四个组成部分:
margin + border + padding + content(width x height)
display:inline,block,inline-block
都具有自身区域:
content 提供给内容(文本,图片,子标签整个盒子)的显示区域
padding 介于border与content之间的区域
可以撑开border与content之间的距离,没有自身颜色(透出背景颜色),只有区域
注意:padding-top可以将自身与自身第一个子级分离

border 边框,宽度 颜色自身定义,padding和content颜色有背景色填充
margin 控制盒子位置==>盒模型布局,不参与盒子显示,其他都参与盒子显示

# 整体设置 padding: 上 右 下 左 (无值边取对边)
# 分开设置
padding-top: 10px;
padding-right: 10px;
padding-bottom: 10px;
padding-left: 10px;

# 整体设置 border: 10px solid black;
# 分开设置
border-top: 10px solid black;
border-right: 10px solid black;
border-bottom: 10px solid black;
border-left: 10px solid black;

如何要保证显示区域大小不变,增加了padding和border,可以相应减小content的区域

边界圆角:
border-radius:20px;(最大只能到盒子的一半)
border-radius:50%;
border-radius:10px 20px 30px ;顺序:左上 右上 右下 左下(没有的值取对边)
border-radius:10px / 20px; 横向都取10px,纵向都取20px

6.盒模型margin布局
完成自身布局: 上移|左移margin-left | margin-top

影响兄弟布局:下移|右移: margin-top取正值|margin-left取正值
(上移|左移: top取负值|left取负值)

作为兄弟,上盒子的垂直布局会影响下盒子垂直方位, 上盒子的结束位置为下盒子的开始位置

坑1:父子联动;
解决方案1:子级里放个浮动 ,后再margin布局
float:left;
margin-top:30px;
解决方案2:position:relative;
top:30px;
坑2:上兄弟下margin和下兄弟上margin重叠取大值




































































































































以上是关于高级计量经济学 14:二值选择模型(基础)的主要内容,如果未能解决你的问题,请参考以下文章

初级计量

计量经济学_预测

计量经济学系列之导论(外经贸课程版)

计量经济学中的截距项属于变量吗?如果说是三变量模型,那k应该取多

计量经济学笔记-1前言&导论

2003年诺贝尔经济学奖:经济时间序列的统计方法|多维视角