有序标称变量(Categorical Features)编码为数值变量(Continuous Features)详解及实践
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了有序标称变量(Categorical Features)编码为数值变量(Continuous Features)详解及实践相关的知识,希望对你有一定的参考价值。
有序标称变量(Categorical Features)编码为数值变量(Continuous Features)详解及实践
有一个带顺序的分类特征(例如,高、中、低)
使用pandas DataFrame的replace方法将字符串标签转换为数字等价表示。
replace的时候需要根据数据的等级设置自定义的字典。
dataframe.replace()
pd.DataFrame()
# Load library
import pandas as pd
# Create features
dataframe = pd.DataFrame({"Score": ["Low", "Low", "Medium", "Medium", "High"]})
# Create mapper
scale_mapper = {"Low":1,
"Medium":2,
"High":3}
# Replace feature values with scale
dataframe["Score"].replace(scale_mapper)
0 1
1 1
2 2
3 2
4 3
Name: Score, dtype: int64
dataframe = pd.DataFrame({"Score": ["Low",
"Low",
以上是关于有序标称变量(Categorical Features)编码为数值变量(Continuous Features)详解及实践的主要内容,如果未能解决你的问题,请参考以下文章
标称变量(Categorical Features)或者分类变量(Categorical Features)编码为数值变量(Continuous Features)
使用Categorical_endcoder包对标称变量进行个性化编码
机器学习类别/标称(categorical)数据处理:目标编码(target encoding)
机器学习类别/标称(categorical)数据处理:序号编码(Ordinal Encoding)