有序标称变量(Categorical Features)编码为数值变量(Continuous Features​​​​​​​)详解及实践

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了有序标称变量(Categorical Features)编码为数值变量(Continuous Features​​​​​​​)详解及实践相关的知识,希望对你有一定的参考价值。

有序标称变量(Categorical Features)编码为数值变量(Continuous Features)详解及实践

 

有一个带顺序的分类特征(例如,高、中、低)

使用pandas DataFrame的replace方法将字符串标签转换为数字等价表示。

replace的时候需要根据数据的等级设置自定义的字典。

 

dataframe.replace()

pd.DataFrame()

 

 

# Load library
import pandas as pd

# Create features
dataframe = pd.DataFrame({"Score": ["Low", "Low", "Medium", "Medium", "High"]})

# Create mapper
scale_mapper = {"Low":1,
                "Medium":2,
                "High":3}

# Replace feature values with scale
dataframe["Score"].replace(scale_mapper)
0    1
1    1
2    2
3    2
4    3
Name: Score, dtype: int64

dataframe = pd.DataFrame({"Score": ["Low",
                                    "Low",
                                 

以上是关于有序标称变量(Categorical Features)编码为数值变量(Continuous Features​​​​​​​)详解及实践的主要内容,如果未能解决你的问题,请参考以下文章

标称变量(Categorical Features)或者分类变量(Categorical Features​​​​​​​)编码为数值变量(Continuous Features​​​​​​​)

使用Categorical_endcoder包对标称变量进行个性化编码

机器学习类别/标称(categorical)数据处理:目标编码(target encoding)

机器学习类别/标称(categorical)数据处理:序号编码(Ordinal Encoding)

机器学习类别/标称(categorical)数据处理:独热编码(One Hot Encoding)

R创建分类变量(categorical variable)