CFA level2 量化分析机器学习 R7

Posted 2021-04-03 蓝兔子读难NOTES

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了CFA level2 量化分析机器学习 R7相关的知识，希望对你有一定的参考价值。

这一章是《了不起的盖茨比》别人有钱...

重新说一遍，这一章是了不起的机器学习(machine learning)，不过按道理来说，教材应该只是想让我们知道什么是机器学习、常用的模型有哪些、应用在什么场景、有什么局限性等等，至于具体怎么搞，交给哪些没有头发还年薪百万的程序猿们吧！

首先，什么是机器学习呢？

机器学习和人学习是一样的，学习就是成长的过程。一路上，我们遇到的人，读过的书，会成为我们的一部分，变成我们的思维方式，成为我们的心智模式。

人与人之间的不同，就是心智模式的不同，为什么你与我不同，就是因为我们面对同样的外部输入，会产生完全不一样的想法。

试想一下，如果我们所有人面对同样的外部输入，比如下面这幅图，如果所以人脑子里产生的想法是完全一样的，那我们还是人吗？我们应该是机器人才对吧！

但是人的学习是一个漫长的过程，从出生到死亡，我们无时无刻不在学习，不在形成、更新我们的心智模式，这些脑子里的模式，又作用于我们以后的生活，成为我们的一部分。

机器学习，也是同样的道理。我们准备好一些数据，把他们喂给机器，让机器去学习他们，不断形成和更新机器内部的算法。

这样，一个训练良好的机器，就是一个大脑，一个心智模式，当我们给他一个新的外部数据(信号)时，他就可以按照之前训练好的模式，自然而然的得到一个结果。

就像此刻我突然喊一声“屎”，此时你的脑子受到外部信号刺激，会自然而然出现画面和味道一样！

教材把机器学习大致分成了4类，虽然很勉强，但是也无所谓：

CFA level2 量化分析机器学习 R7

监督学习

我们在给机器喂数据的时候，要告诉它面对这些输入数据，对应的，它应该作出的输出(反应)是什么，比如[屎=臭,花=香,水=无味]，我们把这个标记叫做标签，就是给输入数据贴上一个标签。

如果标签是上面这种离散的几种，什么香、臭之类，我们把这类问题叫做分类问题(classification)。

而如果标签是连续的值，比如给他输入一件衣服，他输出衣服的价格，由于价格是一个连续的值，我们把这类问题叫做回归问题(regression)。

无监督学习

在给机器喂用于学习的数据时，如果我们喂给它的数据没有标签，那这类学习就叫做无监督学习，常见的就是聚类问题(Clustering)，例如：

给计算机输入一些阿猫、阿狗的照片，机器自己去学习，将他们进行分类，一种理想的情况就是机器将这些照片分成了猫和狗两类。

深度学习

深度学习通常用于处理比较复杂的问题，例如图像、声音处理等等，它主要是和大数据相结合。

强化学习

强化学习类似反馈机制，以学开车为例，我们不告诉机器怎么做，而是由机器自己上手。

在转弯的时候，机器先自己打方向盘，如果第一次角度大了，第二次他就少打点；如果第二次角度又小了，第三次他就多打点，就是这样重复，找到合适的角度。

n多次之后，机器人开车也能开得飞起来，那时，你我就不用受科目2+3的摧残了！

关于过拟合

其实在前面的几章，我们已经多次遇到过过拟合的问题了，简单的来说，就是机器学习学傻了，成了书呆子，犯了教条主义的错误，老问题一看就会，新问题两眼发黑。

对于喂进去的样本内数据，过拟合预测准确度非常高，但是一旦遇到样本外数据，就废了。

每一种模式下面，又有各种不同的算法，当然，有时候一种算法可以用在多种模型下。这么多些个算法，其实核心还是在解决两类问题：

•分类(离散)•连续问题

我们来简单了解下这些个啥么东西：

Penalized regressions(LASSO)

解决回归中的过拟合问题。我们都知道，在多元回归中，引入的系数越多，无论他本身有没有起作用，整体的预测结果是提高的。

但是从经济性角度来说，引入这个因子不好，Penalized regressions就是来惩罚你的，你引入的因子越多，惩罚力度越大，这样来排除那些没用的因子。

他通过最小化误差平方和( penalty value)来实现目标。

LASSO 是一种常见的Penalized regressions模型，特点在于它还引入 sum of the absolute values of the slope coefficients，具体的我只能说去看书吧，皮卡丘！

SVM 支持向量机

这个我们比较常见，他是一个分类算法。

简单来说，如下图，他会按照特征用一根线一样的东西把样本分成类，根据我们要预测那个东西所在的区域来预测它所属的类别。

实际上，可以不只一根线，甚至可以不是直线：

邻近算法(KNN)

主要用在分类。如果一个样本在特征空间中的K个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

分类与回归树(CART)

既可用于分类也可用于回归。

集成与随机森林(Ensemble and Random Forest)

遍不出来了，百度走起吧！

主成分分析(PCA)

PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。

聚类(Clustering)

•K-means 预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。•Hierarchical 层次聚类试图在不同的“层次”上对样本数据集进行划分，一层一层地进行聚类。

上面这些都什么鬼？一脸懵逼，大家自求多福吧！

神经网络

最基本的神经元：

输入信号 >---神经元--->输出信号

当无数个这样简单的神经元连成网的时候，从第一个神经元输入一个最最简单的信号，经过一层一层传递和处理，会变成超级复杂的输出信号。

输入一幅景色，输出一种美丽的感觉！

说回到一个神经元情况，信号经过这个神经元会发生什么改变呢？

这就要看神经元的激活函数了，如果是(+1)，那么输入信号1就会输出信号2。即便如此简单，多个神经元连成网，也可以进行各种积分微分复杂运算。

常见的激活函数( activation function)有...算了，我也不知道！

[ 分享、留言，让学习不再孤单 ]

以上是关于CFA level2 量化分析机器学习 R7的主要内容，如果未能解决你的问题，请参考以下文章

CFA level2 量化分析 机器学习 R7

监督学习

无监督学习

深度学习

强化学习

关于过拟合

Penalized regressions(LASSO)

SVM 支持向量机

邻近算法(KNN)

分类与回归树(CART)

集成与随机森林(Ensemble and Random Forest)

主成分分析(PCA)

聚类(Clustering)

神经网络

CFA level2 量化分析机器学习 R7