CFA二级笔记39-数量-机器学习
Posted 万金游
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CFA二级笔记39-数量-机器学习相关的知识,希望对你有一定的参考价值。
CFA二级笔记39-数量-机器学习
一、错题笔记
本章的题目都做对啦!
二、本章框架
机器学习简介:
三、机器学习概览
机器学习分类
监督学习
监督学习特点:给定Y和X,通过训练找出回归关系(类似回归模型)
Y对应target;X对应feature
非监督学习
没有给定Y,只给定X
dimension reduction:降维,比如存在多重共线性关系的自变量,需要减少一些不必要的自变量
clustering:聚合,数据自行聚合后再找共同点(相似性)
3、深度学习
白色的圆圈就是神经元
input是自变量,神经元是不同维度
比如给定一只鸡的四张照片(相当于四个input),从四张照片提取不同的维度(眼睛、鼻子、耳朵、嘴巴等),相当于神经元,最后得出动物的名称
4、加强学习
机器学习算法决定和表现
1、【重点】机器学习算法决定流程图
2、数据分类(训练-验证-测试)
3、过拟合和泛化(刚刚好)
4、几类错误(偏差错误和方差错误)
5、避免错误的解决方法(复杂度简化和交叉验证)
四、机器学习算法
降维和回归算法
降维
(1)PCA(主成分分析)
变量太多,挑几个重点变量,合并同类型,组成复合变量,比如P/B P/E P/CF都属于价格倍数变量,可以合并同类型,组成价格倍数符合变量
特征向量:“重组”后的变量
特征值:变量解释的百分比
(2)PCA两条规则(如何找出最精准的横坐标和纵坐标)
2、惩罚回归
要不要增加一个特征?
通过加入惩罚回归系数,如果这个特征增加后,能使得SSE减小的部分抵消惩罚回归的部分,那么这个特征就是可以增加的,换言之,是好特征
惩罚回归的公式:
(二)分类算法
1、支持向量机(有一条边界线分类,临近线的变量称为支持向量)
2、K近邻算法(“物以类聚,人以群分”)
3、CART分类和回归树
分类和回归树不能无限地分类下去,需要限制:
加正则,即在某个节点加一个最小数量或最大数量,低于最小数量不再进行分类,大于最大数量不再进行分类
分类到最后只有一个观测值,再进行模型剪枝
4、集成学习和随机森林
(1)集成学习
多台机器学习
运用不同训练数据集得出不同的机器学习模型;进行预测时,根据多数法则决定
random sampling with replacement:有放回地抽样;跑出不同训练数据集的方法
(2)随机森林(是集成学习的一种)
CART分类和回归树的集成学习=随机森林
(三)聚类
1、K均值聚类(已知分类数量)
2、层次聚类
以上是关于CFA二级笔记39-数量-机器学习的主要内容,如果未能解决你的问题,请参考以下文章