机器学习分类器的主要假设(LG、SVM 和决策树)

Posted

技术标签:

【中文标题】机器学习分类器的主要假设(LG、SVM 和决策树)【英文标题】:Major assumptions of machine learning classifiers (LG, SVM, and decision trees) 【发布时间】:2016-05-27 02:42:55 【问题描述】:

在经典统计中,人们通常会陈述假设的假设(即数据的正态性和线性,数据的独立性)。但是当我阅读机器学习教科书和教程时,基本假设并不总是明确或完整地陈述。以下 ML 分类器对二元分类的主要假设是什么,哪些不那么重要,哪些必须严格坚持?

逻辑回归 支持向量机(线性和非线性内核) 决策树

【问题讨论】:

【参考方案1】:

IID 是几乎所有统计学习方法的基本假设。

逻辑回归是 GLM(广义线性模型)的一个特例。所以尽管有一些技术要求,但最严格的限制在于数据分布的具体分布。数据必须具有指数族分布。您可以在https://en.wikipedia.org/wiki/Generalized_linear_model 中深入挖掘,Stanford CS229 讲座笔记1 也对这个主题进行了很好的介绍。

SVM 对输入数据非常宽容,尤其是软边距版本。我不记得任何具体的数据假设(请正确)。

决策树讲述的故事与 SVM 相同。

【讨论】:

【参考方案2】:

好问题。

逻辑回归还假设以下内容:

    自变量之间不存在(或很少)多重共线性(高相关性)。

    尽管 LR 不要求因变量和自变量线性相关,但它确实要求自变量与对数几率线性相关。对数赔率函数就是log(p/1-p)

【讨论】:

以上是关于机器学习分类器的主要假设(LG、SVM 和决策树)的主要内容,如果未能解决你的问题,请参考以下文章

OpenCV4机器学习:决策树原理及分类实战

OpenCV4机器学习:决策树原理及分类实战

机器学习——多方法简单分类(含有 决策树朴素贝叶斯随机森林svm向量机)含源码 自学指南

Python机器学习及实践 课后小题

浅谈对机器学习算法的一些认识(决策树,SVM,knn最近邻,随机森林,朴素贝叶斯逻辑回归)

机器学习支持向量机(SVM)