二机器学习基础2
Posted 满满myno
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了二机器学习基础2相关的知识,希望对你有一定的参考价值。
常用分类算法的优缺点
分类算法 | 优点 | 缺点 |
Bayes 贝叶斯分类法 | 1.所需估计参数少,对缺失数据不敏感 2.数学基础夯实,有稳定效率 | 1.属性相互独立 2.需先验概率 3.分类决策存在错误 |
Decision tree 决策树 | 1.不需任何知识 2.适合高维数据 3.简单易理解 4.速度快、效果好 5.可同时处理数据型与常规型属性 | 1.偏向于更多数据数值特征 2.易于过拟合 3.忽略属性相关性 4.不支持在线学习 |
SVM 支持向量机 | 1.解决小样本 2.提高泛化性 3.解决高维、非线性问题,尤其是超高维文本分类 4.避免神经网络结构选择与局部极小问题 | 1.对缺失数据敏感 2.内存消耗大 3.运行与调参麻烦 |
KNN K邻近 | 1.思想简单、理论成熟,既能分类,又可回归 2.可用于非线性分类 3.训练时间复杂度 4.准确性高,无数据假设,对outlier不敏感 | 1.计算量太大 2.对样本分类不均衡,易误判 3.需大量内存 4.输出可解释性不强 |
Logistic Regression 逻辑回归 | 1.速度快 2.简单易理解,直接看出权重 3.易于更新,吸收新数据 4.可得到概率框架、动态调整分类阈值 | 特征不好处理,需归一化和其他操作 |
Neural Network 神经网络 | 1.准确率高 2.并行处理强 3.分布式储存、学习能力强 4.鲁棒性强,不易受噪声影响 | 1.需要大量参数 2.结果难解释 3.训练时间长 |
Adaboosting | 1.有很高精度 2.提供的是框架,可用任何方法 3.结果易理解对弈简单分类器,弱分类器构造也简单 4.简单,不用筛选 5.不担心overfitting | 对outlier敏感 |
正确率不是评估分类算法好坏的唯一标准。
分类算法评估
术语
1.True Positives(TP):正确划分成正例个数。(样本数)
2.False Positives(TP):错误划分成正例个数。
3.False Negatives(FN):错误划分成负例个数。
4.True Negatives(TN):正确划分成负例个数。
评价指标
1.正确率(accuracy)
accuracy=(TP+TN)/(P+N)
结果越高越好
2.错误率(error rate)
error rate=(FP+FN)/(P+N)
accuracy=1-error rate
3.灵敏度(sensitive)
sensitive=TP/P
衡量分类器对正例的识别能力
4.特效度(specificity)
specificity=TN/N
衡量分类器对负例的识别能力
5.精度(precision)
precision=TP/(TP+FP)
精确性的度量
6.召回率(recall)
recall=TP/(TP+FN)=TP/P=sensitive
覆盖面的度量
7.其他指标
计算速度:时间长短
鲁棒性:处理异常能力
可拓展性:处理大数据的能力
可解释性:预测标准的可理解性
8.查准率和查全率:分类性能指标
F1=2(percision*recall)/(percision+recall)
补充:微平均(micro-averaging)主要受稀有类别影响和宏平均(macro-averaging)主要受常见类别影响较大。
ROC曲线和PR曲线
以上是关于二机器学习基础2的主要内容,如果未能解决你的问题,请参考以下文章