解释来自 RandomForestClassifier 的特征重要性值

Posted

技术标签:

【中文标题】解释来自 RandomForestClassifier 的特征重要性值【英文标题】:Interpreting feature importance values from a RandomForestClassifier 【发布时间】:2016-02-23 13:22:25 【问题描述】:

我是机器学习的初学者,我无法解释我从第一个程序中获得的一些结果。这是设置:

我有一个书评数据集。这些书籍可以用大约 1600 本书中的任意数量的限定词进行标记。审阅这些书籍的人也可以用这些限定词标记自己,以表明他们喜欢使用该标记阅读内容。

数据集的每个限定符都有一个列。对于每条评论,如果使用给定的限定符来标记图书和评论者,则记录值为 1。如果给定评论中的给定限定符没有“匹配”,则记录值为 0。

还有一个“评分”列,其中包含每个评论的整数 1-5(该评论的“星级”)。我的目标是确定哪些功能对于获得高分最重要。

这是我现在拥有的代码 (https://gist.github.com/souldeux/99f71087c712c48e50b7):

def determine_feature_importance(df):
    #Determines the importance of individual features within a dataframe
    #Grab header for all feature values excluding score & ids
    features_list = df.columns.values[4::]
    print "Features List: \n", features_list

    #set X equal to all feature values, excluding Score & ID fields
    X = df.values[:,4::]

    #set y equal to all Score values
    y = df.values[:,0]

    #fit a random forest with near-default paramaters to determine feature importance
    print '\nCreating Random Forest Classifier...\n'
    forest = RandomForestClassifier(oob_score=True, n_estimators=10000)
    print '\nFitting Random Forest Classifier...\n'
    forest.fit(X,y)
    feature_importance = forest.feature_importances_
    print feature_importance

    #Make importances relative to maximum importance
    print "\nMaximum feature importance is currently: ", feature_importance.max()
    feature_importance = 100.0 * (feature_importance / feature_importance.max())
    print "\nNormalized feature importance: \n", feature_importance
    print "\nNormalized maximum feature importance: \n", feature_importance.max()
    print "\nTo do: set fi_threshold == max?"
    print "\nTesting: setting fi_threshhold == 1"
    fi_threshold=1

    #get indicies of all features over fi_threshold
    important_idx = np.where(feature_importance > fi_threshold)[0]
    print "\nRetrieved important_idx: ", important_idx

    #create a list of all feature names above fi_threshold
    important_features = features_list[important_idx]
    print "\n", important_features.shape[0], "Important features(>", fi_threshold, "% of max importance:\n", important_features

    #get sorted indices of important features
    sorted_idx = np.argsort(feature_importance[important_idx])[::-1]
    print "\nFeatures sorted by importance (DESC):\n", important_features[sorted_idx]

    #generate plot
    pos = np.arange(sorted_idx.shape[0]) + .5
    plt.subplot(1,2,2)
    plt.barh(pos,feature_importance[important_idx][sorted_idx[::-1]],align='center')
    plt.yticks(pos, important_features[sorted_idx[::-1]])
    plt.xlabel('Relative importance')
    plt.ylabel('Variable importance')
    plt.draw()
    plt.show()

    X = X[:, important_idx][:, sorted_idx]


    return "Feature importance determined"

我成功地生成了一个情节,但老实说,我不确定情节的含义。据我了解,这向我展示了任何给定功能对分数变量的影响程度。但是,我意识到这一定是个愚蠢的问题,我怎么知道影响是正面的还是负面的?

【问题讨论】:

【参考方案1】:

简而言之你没有。决策树(随机森林的构建块)不能以这种方式工作。如果您使用线性模型,那么特征是“正”还是“负”的区别非常简单,因为它对最终结果的唯一影响是被添加(带有权重)。而已。然而,决策树的集合可以对每个特征有任意复杂的规则,例如“如果书有红色封面并且有超过 100 页,那么如果它包含龙则获得高分”但是“如果书有蓝色封面并且超过 100页面然后如果它包含龙它会得到低分”等等。

特征重要性只让您了解哪些特征有助于决策,而不是“哪种方式”,因为有时它会起作用,有时会起作用。

你能做什么?您可以添加一些极端的简化 - 假设您只对完全没有其他功能的功能感兴趣,现在 - 一旦您知道哪些是重要的,您就可以计算该功能在每个类中出现的次数(在您的情况下得分)。这样你就可以得到分布了

P(gets score X|has feature Y)

这将或多或少地向您展示它(在边缘化之后)是否具有正面或负面影响。

【讨论】:

【参考方案2】:

随机森林可以衡量任何特征在分类任务中的相对重要性。

通常,我们会衡量如果我们失去该特征的真实值会造成的损失。每次对一个特征值进行打乱,并测量预测准确性的损失。

因为每次我们构建一个新的决策树时都会这样做,并且随机森林由几棵树组成,所以值是可靠的。

看看这个page.

从 forest.feature_importances_ 返回的数字越高,意味着它们在此分类任务中越重要。

但是,在您的情况下,这不合适。我建议尝试Multinomial Naive Bayes Classifier 并在训练后检查 feature_log_prob_。这样你就可以看到给定类 P(x_i|y) 的特征概率。

【讨论】:

以上是关于解释来自 RandomForestClassifier 的特征重要性值的主要内容,如果未能解决你的问题,请参考以下文章

解释来自 OpenCV matchShapes() 的数字

来自管道模型的 pyspark 模型解释

向我解释十六进制'0xf0'中的'x'来自哪里[重复]

需要帮助解释来自 QuincyKit 的崩溃日志

来自 CodeMagic 解释的测试错误日志

解释来自 Superpowered CrossExample for Android 的 C++ 代码