课时决策树和随机森林

Posted linyk

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了课时决策树和随机森林相关的知识,希望对你有一定的参考价值。

决策树

  • 通常决策树主要有三种实现,分别是ID3算法,CART算法和C4.5算法。
  • 随机森林的重点在于单个决策树是如何建造的

CART

  • Classification And Regression Tree,即分类回归树算法,简称CART算法,它是决策树的一种实现.
  • CART算法是一种二分递归分割技术,把当前样本划分为两个子样本,使得生成的每个非叶子结点都有两个分支,因此CART算法生成的决策树是结构简洁的二叉树。由于CART算法构成的是一个二叉树,它在每一步的决策时只能是“是”或者“否”,即使一个feature有多个取值,也是把数据分为两部分。在CART算法中主要分为两个步骤:
    • 将样本递归划分进行建树过程
    • 用验证数据进行剪枝
  • 原理

技术图片

  • 信息论中,熵是接受的每条消息中包含的信息的平均值。又被称为信息熵、信源熵、平均自信息量。可以被理解为不确定性的度量,熵越大,信源的分布越随机
  • 熵是描述一个系统的无序程度的变量;同样的表述还有,熵是系统混乱度的度量,一切自发的不可逆过程都是从有序到无序的变化过程,向熵增的方向进行

信息熵

技术图片

技术图片

交叉熵和相对熵

技术图片

  • 交叉熵的由来

技术图片

  • 相对熵的由来

技术图片

技术图片

  • 条件熵

技术图片

技术图片

技术图片

技术图片

技术图片

技术图片

以上是关于课时决策树和随机森林的主要内容,如果未能解决你的问题,请参考以下文章

决策树和随机森林

机器学习-决策树和随机森林

决策树算法之随机森林

10、决策树集成--随机森林

2.1.决策树和随机森林

关于决策树和随机森林分类器(scikit)的疑问