需要标准化/标准化的scikit-learn算法列表
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了需要标准化/标准化的scikit-learn算法列表相关的知识,希望对你有一定的参考价值。
有人可以提供所有需要在使用前对数据进行标准化或规范化的算法的列表。或者有人请告诉我示例我可以在scikit-learn文档中找到它。
答案
在大多数情况下,功能扩展意味着: 1.使所有特征的平均值不要太大(比方说,0) 2.使所有特征的方差大致相同(例如,1)
所以你的问题可能会有所不同: 1)哪些算法依赖于接近零的绝对值? 2)哪些算法需要比较分配值? 3)哪些算法使用正则化来惩罚特征的极端权重?
第一点与ANN中的激活函数紧密相关,其由于导数而具有接近零(sigmoid,tanh,relu)的最大学习能力。
第2点和第3点与不同特征的权重相等有关。
一般来说,由于第2点和第3点,你应该总是进行缩放。例外情况是决策树不使用具有不同特征的任何联合度量,也不对平均值进行任何假设,因此可以在不进行缩放的情况下使用。
以上是关于需要标准化/标准化的scikit-learn算法列表的主要内容,如果未能解决你的问题,请参考以下文章
如何标准化 scikit-learn 中的 TF*IDF 或计数?
机器学习:SVM(scikit-learn 中的 SVM:LinearSVC)
spark 与 scikit-learn 机器学习流程组件设计哲学比较