预测方法显示标准化概率?
Posted
技术标签:
【中文标题】预测方法显示标准化概率?【英文标题】:The predict method shows standardized probability? 【发布时间】:2014-03-05 04:23:21 【问题描述】:我在 Scikit-learn 中使用 AdaBoostClassifier,无论训练集有多不平衡,平均概率始终为 0.5。类预测 (predict_) 似乎给出了正确的估计,但这些并没有反映在 predict_probas 方法中,该方法总是平均为 0.5。
如果我的“真实”概率是 0.02,我如何转换标准化概率以反映该比例?
【问题讨论】:
【参考方案1】:您的意思是每个样本的概率平均为 1/n_classes?情况必然如此; predict_proba
报告的概率是 y 的所有值的条件类概率分布 P(y|X)。要产生不同的概率,请根据您的概率模型执行任何必要的计算。
【讨论】:
是的。在 NaiveBayes 算法中,显然有一个 class_prior 参数(例如 [0.2, 0.8])。这似乎是我正在寻找的,即使 AdaBoostClassifier 不允许它。将 predict_proba 响应与类的倒数(1/0.2 或 1/0.8)相乘以获得与先验类对应的数字是否正确? @OlaGustafsson 您可以随心所欲地相乘。如果你之后重新规范化,那么你所拥有的是一个带有额外先验的分类器,即一种混合模型。以上是关于预测方法显示标准化概率?的主要内容,如果未能解决你的问题,请参考以下文章
H.264/AVC视频编解码技术详解二十四帧间预测编码:解码显示顺序与图像管理
H.264/AVC视频编解码技术详解二十四帧间预测编码:解码显示顺序与图像管理
H2O 不应该标准化正则化 GLM 模型(套索、岭、弹性网)的分类预测变量吗?
kaggle 欺诈信用卡预测——不平衡训练样本的处理方法 综合结论就是:随机森林+过采样(直接复制或者smote后,黑白比例1:3)效果比较好!记得在smote前一定要先做标准化!!!