使用Categorical_endcoder包对标称变量进行个性化编码

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用Categorical_endcoder包对标称变量进行个性化编码相关的知识,希望对你有一定的参考价值。

使用Categorical_endcoder包对标称变量进行个性化编码

 

Categorical Encoding扩展了很多实现 scikit-learn 数据转换器接口的分类编码方法,并实现了常见的分类编码方法,例如单热编码和散列编码,也有更利基的编码方法,如基本编码和目标编码。这个库对于处理现实世界的分类变量来说很有用,比如那些具有高基数的变量。这个库还可以直接与 pandas 一起使用,用于计算缺失值,以及处理训练集之外的变换值。

 

pip安装

pip install category_encoders

Conda安装

conda install -c conda-forge category_encoders

 

 

包括以下15种编码方法,这些编码的功能、参数定义以及属性由官网知悉。

  • Backward Difference Coding
  • BaseN
  • Binary
  • CatBoost Encoder
  • Hashing
  • Helmert Coding
  • James-Stein Encoder
  • Leave One Out
  • M-estimate
  • One Hot
  • Ordinal
  • Polynomial Coding
  • Sum Coding
  • <

以上是关于使用Categorical_endcoder包对标称变量进行个性化编码的主要内容,如果未能解决你的问题,请参考以下文章

R语言使用caret包对GBM模型自定义参数调优:自定义参数优化网格

使用 Mcomp 包对每月时间序列进行批量预测时如何获得正确的输出?

R语言使用DALEX包对h2o包构建的机器学习模型进行解释分析:总结及实战

R语言使用caret包对GBM模型进行参数调优实战:Model Training and Parameter Tuning

text plantuml:使用隐藏包对项目进行分组以获得更好的布局

golang 使用Go的net / http包对JSON进行编码和解码