使用Categorical_endcoder包对标称变量进行个性化编码
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用Categorical_endcoder包对标称变量进行个性化编码相关的知识,希望对你有一定的参考价值。
使用Categorical_endcoder包对标称变量进行个性化编码
Categorical Encoding扩展了很多实现 scikit-learn 数据转换器接口的分类编码方法,并实现了常见的分类编码方法,例如单热编码和散列编码,也有更利基的编码方法,如基本编码和目标编码。这个库对于处理现实世界的分类变量来说很有用,比如那些具有高基数的变量。这个库还可以直接与 pandas 一起使用,用于计算缺失值,以及处理训练集之外的变换值。
pip安装
pip install category_encoders
Conda安装
conda install -c conda-forge category_encoders
包括以下15种编码方法,这些编码的功能、参数定义以及属性由官网知悉。
- Backward Difference Coding
- BaseN
- Binary
- CatBoost Encoder
- Hashing
- Helmert Coding
- James-Stein Encoder
- Leave One Out
- M-estimate
- One Hot
- Ordinal
- Polynomial Coding
- Sum Coding <
以上是关于使用Categorical_endcoder包对标称变量进行个性化编码的主要内容,如果未能解决你的问题,请参考以下文章
R语言使用caret包对GBM模型自定义参数调优:自定义参数优化网格
使用 Mcomp 包对每月时间序列进行批量预测时如何获得正确的输出?
R语言使用DALEX包对h2o包构建的机器学习模型进行解释分析:总结及实战
R语言使用caret包对GBM模型进行参数调优实战:Model Training and Parameter Tuning