如何识别影响预测结果的特征？

Posted 2023-03-12

技术标签:

【中文标题】如何识别影响预测结果的特征？【英文标题】：How to identify what features affect predictions result? 【发布时间】：2021-10-15 01:34:49 【问题描述】：

我有一张表格，其中包含用于构建一些模型来预测用户是否会购买新保险的特征。在同一张表中，我有属于该模型预测的第 1 类（将购买）和第 0 类（不会购买）的概率。我不知道使用什么样的算法来构建这个模型。我只有它的预测概率。

问题：如何识别影响这些预测结果的特征？我需要建立相关矩阵或进行任何测试吗？

表格示例：

+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| user_id | age | car_price | car_age | income | education | gender | crashes | probability | true_labes |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 1       | 29  | 15600     | 3       | 20000  | 3         | 1      | 1       | 0.23        | 0          |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 2       | 41  | 43000     | 1       | 65000  | 2         | 0      | 1       | 0.1         | 0          |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 3       | 39  | 23500     | 5       | 43000  | 3         | 1      | 0       | 0.46        | 1          |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 4       | 19  | 12200     | 3       | 13000  | 1         | 1      | 0       | 0.34        | 1          |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+
| 5       | 68  | 21900     | 2       | 31300  | 3         | 0      | 1       | 0.85        | 1          |
+---------+-----+-----------+---------+--------+-----------+--------+---------+-------------+------------+

【问题讨论】：

【参考方案1】：

你可以建立一个像this这样的模型。

x = 您拥有的功能。 y = true_lable

从中您可以提取特征重要性。另外，如果你想加倍努力，你可以做Bootstrapping，这样特征重要性会更稳定（统计）。

【讨论】：

好主意。谢谢！

以上是关于如何识别影响预测结果的特征？的主要内容，如果未能解决你的问题，请参考以下文章

测量随机森林回归器中每个预测器特征重要性对目标值的影响（量化）（目标值的提升或下降）

线性回归案例：波士顿房价预测

做统计特征需要注意的事项

机器学习算法：波士顿房价预测 | 黑马程序员

第五周学习--卷积网络识别含义多重性验证

XGB：展示每个预测结果的各特征概率