机器学习

Posted 654321cc

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习相关的知识,希望对你有一定的参考价值。

一 对数回归

  全称为对数几率回归,其它文献也称为 线性回归。

  虽然称为回归,但实际是分类算法。

 

  本质是广义线性模型。通过sigmoid函数(联系函数),将回归模型的预测值与分类的真实标记联系起来。

 

  只适用于二分类?

 

  多分类情况 采用 OvO或者OvR策略解决。

  类别不平衡问题 采用 再缩放 (rescaling) 策略解决

    欠采样 -- EasyEnsemble

    过采样 -- SMOTE

 

二 线性判别分析 LDA

  可以适用于多分类。

 

三 决策树

  划分指标

    信息增益 -- ID3

    增益率  -- C4.5

 

    gini index 基尼指数 -- CART决策树 classification and regression tree的缩写

 

  适用于离散值,也适用于连续值。连续值的策略是取 n-1 个划分点。

  也可以处理缺失值,牛逼。起码C4.5是可以的。

 

  过拟合处理策略

    剪枝

      预剪枝

      后剪枝

  扩展:多变量决策树

        本质是对变量进行线性组合

        算法:OC1

 

以上是关于机器学习的主要内容,如果未能解决你的问题,请参考以下文章

机器学习:机器学习工作流程

一文读懂什么是机器学习--1. 机器学习是什么?

机器学习机器学习的经典算法

机器学习基础教程笔记---机器学习概述

机器学习基础教程笔记---机器学习概述

机器学习入门