使用决策树从现有特征创建新特征
Posted
技术标签:
【中文标题】使用决策树从现有特征创建新特征【英文标题】:Creating a new feature from existing ones using a decision tree 【发布时间】:2021-07-25 16:34:25 【问题描述】:是否可以使用决策树从两个或两个以上现有特征中创建一个新特征?
如果是这样,它如何产生具有良好信息价值的特征,从而更好地帮助模型?
【问题讨论】:
【参考方案1】:决策树本身不会创建第三个变量。您将自己创建第三个变量,这项任务通常称为特征工程。有无数种,甚至可能是无限的可能性,例如,
x3 = x1 + x2
x3 = x1 / x2
(只要 x2 不能为零)
x3 = x1 * exp(x2)
...
当您探索这个奇妙的特征工程世界时,您可能会发现某些类型的组合在决策树上的效果比其他组合更好……但总的来说,没有正确的答案;只是实验。
只是一个帮助您入门的提示 - 决策树自然可以很好地处理共线性,因为一旦在 x 上拆分 1 个节点,与 x 共线的变量在拆分中突然变得不那么有用了。因此,与 x1 或 x2 直接高度相关的转换可能没有太大帮助。
【讨论】:
我没有得到 x3 部分,它是如何创建新功能的?你能再解释一下吗?谢谢! @SoumyajitSarkar x3 未创建,第一段是我解释的地方。 x3 是您可以自己创建的变量的示例。以上是关于使用决策树从现有特征创建新特征的主要内容,如果未能解决你的问题,请参考以下文章
如何使用决策树中的 feature_importances_ 删除所有非零重要特征?
如何返回在 sklearn 中由 DecisionTreeClassifier 创建的决策树中使用的特征
机器学习特征表达——日期与时间特征做离散处理(数字到分类的映射),稀疏类分组(相似特征归档),创建虚拟变量(提取新特征) 本质就是要么多变少,或少变多