学习笔记计算机时代的统计推断(Bradley Efron and Trevor Hastie 著)
Posted 囚生CY
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了学习笔记计算机时代的统计推断(Bradley Efron and Trevor Hastie 著)相关的知识,希望对你有一定的参考价值。
序言
英文版教材免费下载地址: CASI
笔者本来是打算写来作为期末复习使用的, 但是发现写着写着变成了翻译教材, 实在是太草了; 本来以为提前一个星期动笔一定可以趁复习时顺手做完这本教材的摘要, 现在看来怕是要来不及了[Facepalm]…
笔者认为本书对于深究机器学习领域中的统计理论知识非常重要, 如果以后想要在机器学习方向做深入研究的话, 此书能够大大开拓使用机器学习方法的思路, 尤其是后半部分的章节与机器学习密切相关, 对诸如交叉验证, 自助法, 深度学习中的参数评估做了详细的理论分析, 非常值得好好学习一遍, 可惜课上讲到第12章就结束了;
本文长期更新, 笔者对该教材非常感兴趣, 眼下迫于期末复习无法详细做完所有笔记, 目前只做完了前三节的内容, 后续重点会就机器学习相关章节做一些笔记, 其他章节可能就以总结重点的形式一笔带过, 因为前面的几个章节主要还是基础的统计知识, 大部分可以在教科书上找到, 总之不能像前三节一样费时间写了, 实在是来不及了…
目录
- 序言
- PART 1 经典统计推断 Classic Statistical Inference
- PART 2 早期计算机时代的方法 Early Computer-Age Methods
- 6 经验贝叶斯 Empirical Bayes
- 7 詹姆斯——斯坦因估计与岭回归 James–Stein Estimation and Ridge Regression
- 8 广义线性回归与回归树 Generalized Linear Models and Regression Trees
- 9 生存分析与期望最大化算法 Survival Analysis and the EM Algorithm
- 10 刀切法与自助法 The Jackknife and the Bootstrap
- 11 自助法的置信区间 Bootstrap Confidence Intervals
- 11.1 黎曼对于单参数问题的构建 Neyman’s Construction for One-Parameter Problems
- 11.2 分位数方法 The Percentile Method
- 11.3 偏差矫正后的置信区间 Bias-Corrected Confidence Intervals
- 11.4 二次精确度 Second-Order Accuracy
- 11.5 自助法的 t t t区间 Bootstrap- t t t Intervals
- 11.6 目标贝叶斯区间与置信分布 Objective Bayes Intervals and the Confidence Distribution
- 12 交叉检验与预测误差的 C p C_p Cp估计 Cross-Validation and C p C_p Cp Estimates of Prediction Error
- 13 目标贝叶斯推断与马尔科夫链蒙特卡洛法 Objective Bayes Inference and MCMC
- 14 战后统计推断与方法论 Postwar Statistical Inference and Methodology
- PART 3 二十一世纪的话题 Twenty-First-Century Topics
- 15 大规模假设检验与错误发现率 Large-Scale Hypothesis Testing and FDRs
- 16 稀疏建模与最小绝对收缩和选择运算符 Sparse Modeling and the Lasso
- 17 随机森林与提升方法 Random Forests and Boosting
- 18 神经网络与深度学习 Neural Networks and Deep Learning
- 19 支持向量机与核函数方法 Support-Vector Machines and Kernel Methods
- 19.1 最优分割超平面 Optimal Separating Hyperplane
- 19.2 松弛边际分类器 Soft-Margin Classifier
- 19.3 支持向量机的 SVM Criterion as Loss Plus Penalty
- 19.4 计算与核函数技巧 Computations and the Kernel Trick
- 19.5 使用核函数进行函数拟合 Function Fitting Using Kernels
- 19.6 示例: 用于蛋白质分类的字符串核函数 Example: String Kernels for Protein Classification
- 19.7 支持向量机总结 SVMs: Concluding Remarks
- 19.8 核函数平滑与局部回归 Kernel Smoothing and Local Regression
- 20 模型选择后的推断 Inference After Model Selection
- 21 经验贝叶斯估计策略 Empirical Bayes Estimation Strategies
PART 1 经典统计推断 Classic Statistical Inference
1 算法与推断 Algorithms and Inference
- 统计科学是从经验中进行知识学习的学科, 尤其是那种每次都只有有少量积累的经验, 如:
- (1) 新研发的实验药品成功与否;
- (2) 小行星通往地球路径的不确定测算;
- 样本均值估计 x ˉ = ∑ i = 1 n x i n (1.1) \\bar x=\\sum_i=1^n\\fracx_in\\tag1.1 xˉ=i=1∑nnxi(1.1)的标准误差估计值为: s e ^ = [ ∑ i = 1 n ( x i − x ˉ ) 2 n ( n − 1 ) ] 1 2 (1.2) \\widehat\\rm se=\\left[\\sum_i=1^n\\frac(x_i-\\bar x)^2n(n-1)\\right]^\\frac12\\tag1.2 se =[i=1∑nn(n−1)(xi−xˉ)2]21(1.2)
- ( 1.1 ) (1.1) (1.1)中均值计算属于一种推断算法;
-
(
1.2
)
(1.2)
(1.2)中的标准误差值可以表示该推断算法的精确性, 标准误差越小, 精确度越高;
- 标准误差: 指在给定样本 X = x 1 , x 2 , . . . , x n \\bmX=\\x_1,x_2,...,x_n\\ X=x1,x2,...,xn的条件下, 样本统计量 T ( X ) T(\\bmX) T(X)的标准差;
- 此处 T ( X ) = x ˉ T(\\bmX)=\\bar x T(X)=xˉ, 则标准误差估计值 s e ^ \\widehat\\rm se se 计算公式为: [ ∑ i = 1 n 1 n 2 V a r ( x i ) ] 1 2 = [ n ⋅ 1 n 2 ⋅ ( x i − x ˉ ) 2 ( n − 1 ) ] 1 2 = [ ∑ i = 1 n ( x i − x ˉ ) 2 n ( n − 1 ) ] 1 2 \\left[\\sum_i=1^n\\frac1n^2\\rm Var(x_i)\\right]^\\frac12=\\left[n\\cdot\\frac1n^2\\cdot\\frac(x_i-\\bar x)^2(n-1)\\right]^\\frac12=\\left[\\sum_i=1^n\\frac(x_i-\\bar x)^2n(n-1)\\right]^\\frac12 [i=1∑nn21Var(xi)]21=[n⋅n21⋅(n−1)(xi−xˉ)2]21=[i=1∑nn(n−1)(xi−xˉ)2]21
- 结论: 提供统计推断的一组样本数据, 同样可以用来评估该推断结果的精确性;
1.1 一个回归示例 A Regression Example
- 本节给出一个肾功能随年龄变化的回归分析模型:
y
=
以上是关于学习笔记计算机时代的统计推断(Bradley Efron and Trevor Hastie 著)的主要内容,如果未能解决你的问题,请参考以下文章
概率统计笔记:贝叶斯推断 Bayesian Inference
笔记︱盘点实验科学的三种实验模型(A/B实验因果推断强化学习)
笔记︱盘点实验科学的三种实验模型(A/B实验因果推断强化学习)