极端值目标值(exterem or outlier target)对应的核心特征的分布差异分析+结合catboost特种重要度(top10)

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了极端值目标值(exterem or outlier target)对应的核心特征的分布差异分析+结合catboost特种重要度(top10)相关的知识,希望对你有一定的参考价值。

极端值目标值(exterem or outlier target)对应的核心特征的分布差异分析+结合catboost特种重要度(top10)

分析目标(target)在极值区域时候,核心特征的分布情况的差异;

核心特征通过集成学习模型获取重要度高的特征;

CatBoost不仅在你提供给它的任何数据集上构建了一个最精确的模型,其中只需要最少的数据准备。它还提供了迄今为止最好的开源解释工具,以及快速生成模型的方法。

CatBoost引发了机器学习革命。学习使用它会提高你的技能。但更有趣的是,CatBoost对数据科学家(比如我自己)的现状构成了威胁,因为我认为在给定数据集的情况下,建立一个高精度的模型是很乏味的。但是CatBoost正在改变这种状况。它使得每个人都可以使用高度精确的模型。

训练结束后,通过model.feature_importances_属性,我们可以拿到这些特征的重要程度数据,特征的重要性程度可以帮助我们分析出一些有用的信息。

# #获取特征重要度、构建归一化特征(总和100),并归一化排序;

# Feature importances into a dataframe
feature_importances = pd.DataFrame({\'feature\': col_features, \'importance\': cat_model.feature_importances_})
# feature_importances = pd.DataFrame({\'feature\': features.columns, \'i

以上是关于极端值目标值(exterem or outlier target)对应的核心特征的分布差异分析+结合catboost特种重要度(top10)的主要内容,如果未能解决你的问题,请参考以下文章

Novelty and Outlier Detection(奇异值和异常值检测)

R使用Z分数和四分位数区间法去除异常值(outlier)

机器学习数据预处理之离群值/异常值:标准差法

机器学习数据预处理之离群值/异常值:图像对比法

机器学习数据预处理之离群值/异常值:箱图法(boxplot method)

R语言使用car包的outlierTest函数通过假设检验的方法检测回归模型中的异常值(outlier)输出异常值对应的统计量p值以及Bonferonnii校正p值