逻辑回归 PMML 不会产生概率

Posted

技术标签:

【中文标题】逻辑回归 PMML 不会产生概率【英文标题】:Logistic Regression PMML won't Produce Probabilities 【发布时间】:2019-04-06 07:08:47 【问题描述】:

作为机器学习部署项目的一部分,我构建了一个概念验证,其中我使用 R 的 glm 函数和 python 的 scikit-learn 为二元分类任务创建了两个简单的逻辑回归模型。之后,我使用 R 中的 pmml 函数和 Python 中的 from sklearn2pmml.pipeline import PMMLPipeline 函数将这些经过训练的简单模型转换为 PMMLs。

接下来,我在 KNIME 中打开了一个非常简单的工作流程,看看是否可以将这两个 PMMLs 付诸实施。基本上,这个概念验证的目标是测试 IT 是否可以使用我简单地交给他们的PMMLs 对新数据进行评分。这个练习必须产生概率,就像原来的逻辑回归一样。

在 KNIME 中,我使用 CSV Reader 节点读取只有 4 行的测试数据,使用 PMML Reader 节点读取 PMML,最后让该模型使用 PMML Predictor 节点对测试数据进行评分。问题是预测不是我想要的最终概率,而是在那之前的一步(系数总和乘以自变量值,我猜称为 XBETA?)。请看下图中的工作流程和预测:

要获得最终概率,需要通过 sigmoid 函数运行这些数字。所以基本上对于第一条记录,我需要1/(1+exp(-2.654)) = 0.93,而不是2.654。我确信PMML 文件包含启用 KNIME(或任何其他类似平台)为我执行此 sigmoid 操作所需的信息,但我找不到它。这就是我迫切需要帮助的地方。

我查看了 regression 和 general regression PMML 文档,我的 PMML 看起来还不错,但我不知道为什么我无法获得这些概率。

非常感谢任何帮助!

附件 1 - 这是我的测试数据:

age credit  payfreq gmi
25  550 4   1500
27  650 4   3400
35  600 2   3200
40  680 2   4000

附件 2 - 这是我的 R 生成的 PMML:

<?xml version="1.0"?>
<PMML version="4.2" xmlns="http://www.dmg.org/PMML-4_2" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.dmg.org/PMML-4_2 http://www.dmg.org/v4-2/pmml-4-2.xsd">
 <Header copyright="Copyright (c) 2018 fakici" description="Generalized Linear Regression Model">
  <Extension name="user" value="fakici" extender="Rattle/PMML"/>
  <Application name="Rattle/PMML" version="1.4"/>
  <Timestamp>2018-10-30 17:36:39</Timestamp>
 </Header>
 <DataDictionary numberOfFields="5">
  <DataField name="bad" optype="categorical" dataType="double"/>
  <DataField name="age" optype="continuous" dataType="double"/>
  <DataField name="credit" optype="continuous" dataType="double"/>
  <DataField name="payfreq" optype="continuous" dataType="double"/>
  <DataField name="gmi" optype="continuous" dataType="double"/>
 </DataDictionary>
 <GeneralRegressionModel modelName="General_Regression_Model" modelType="generalLinear" functionName="regression" algorithmName="glm" distribution="binomial" linkFunction="logit" targetReferenceCategory="1">
  <MiningSchema>
   <MiningField name="bad" usageType="predicted" invalidValueTreatment="returnInvalid"/>
   <MiningField name="age" usageType="active" invalidValueTreatment="returnInvalid"/>
   <MiningField name="credit" usageType="active" invalidValueTreatment="returnInvalid"/>
   <MiningField name="payfreq" usageType="active" invalidValueTreatment="returnInvalid"/>
   <MiningField name="gmi" usageType="active" invalidValueTreatment="returnInvalid"/>
  </MiningSchema>
  <Output>
   <OutputField name="Predicted_bad" feature="predictedValue"/>
  </Output>
  <ParameterList>
   <Parameter name="p0" label="(Intercept)"/>
   <Parameter name="p1" label="age"/>
   <Parameter name="p2" label="credit"/>
   <Parameter name="p3" label="payfreq"/>
   <Parameter name="p4" label="gmi"/>
  </ParameterList>
  <FactorList/>
  <CovariateList>
   <Predictor name="age"/>
   <Predictor name="credit"/>
   <Predictor name="payfreq"/>
   <Predictor name="gmi"/>
  </CovariateList>
  <PPMatrix>
   <PPCell value="1" predictorName="age" parameterName="p1"/>
   <PPCell value="1" predictorName="credit" parameterName="p2"/>
   <PPCell value="1" predictorName="payfreq" parameterName="p3"/>
   <PPCell value="1" predictorName="gmi" parameterName="p4"/>
  </PPMatrix>
  <ParamMatrix>
   <PCell parameterName="p0" df="1" beta="14.4782176066955"/>
   <PCell parameterName="p1" df="1" beta="-0.16633241754673"/>
   <PCell parameterName="p2" df="1" beta="-0.0125492006930571"/>
   <PCell parameterName="p3" df="1" beta="0.422786551151072"/>
   <PCell parameterName="p4" df="1" beta="-0.0005500245399861"/>
  </ParamMatrix>
 </GeneralRegressionModel>
</PMML>

附件 3 - 这是我的 Python 生成的 PMML:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<PMML xmlns="http://www.dmg.org/PMML-4_2" xmlns:data="http://jpmml.org/jpmml-model/InlineTable" version="4.2">
    <Header>
        <Application name="JPMML-SkLearn" version="1.5.8"/>
        <Timestamp>2018-10-30T22:10:32Z</Timestamp>
    </Header>
    <MiningBuildTask>
        <Extension>PMMLPipeline(steps=[('mapper', DataFrameMapper(default=False, df_out=False,
        features=[(['age', 'credit', 'payfreq', 'gmi'], [ContinuousDomain(high_value=None, invalid_value_replacement=None,
         invalid_value_treatment='return_invalid', low_value=None,
         missing_value_replacement=None, missing_value_treatment='as_is',
         missing_values=None, outlier_treatment='as_is', with_data=True,
         with_statistics=True), Imputer(axis=0, copy=True, missing_values='NaN', strategy='mean', verbose=0)])],
        input_df=False, sparse=False)),
       ('classifier', LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False))])</Extension>
    </MiningBuildTask>
    <DataDictionary>
        <DataField name="bad" optype="categorical" dataType="double">
            <Value value="0"/>
            <Value value="1"/>
        </DataField>
        <DataField name="age" optype="continuous" dataType="double">
            <Interval closure="closedClosed" leftMargin="20.0" rightMargin="50.0"/>
        </DataField>
        <DataField name="credit" optype="continuous" dataType="double">
            <Interval closure="closedClosed" leftMargin="501.0" rightMargin="699.0"/>
        </DataField>
        <DataField name="payfreq" optype="continuous" dataType="double">
            <Interval closure="closedClosed" leftMargin="2.0" rightMargin="4.0"/>
        </DataField>
        <DataField name="gmi" optype="continuous" dataType="double">
            <Interval closure="closedClosed" leftMargin="1012.0" rightMargin="4197.0"/>
        </DataField>
    </DataDictionary>
    <RegressionModel functionName="classification" normalizationMethod="softmax" algorithmName="glm" targetFieldName="bad">
        <MiningSchema>
            <MiningField name="bad" usageType="target"/>
            <MiningField name="age" missingValueReplacement="35.05" missingValueTreatment="asMean"/>
            <MiningField name="credit" missingValueReplacement="622.28" missingValueTreatment="asMean"/>
            <MiningField name="payfreq" missingValueReplacement="2.74" missingValueTreatment="asMean"/>
            <MiningField name="gmi" missingValueReplacement="3119.4" missingValueTreatment="asMean"/>
        </MiningSchema>
        <Output>
            <OutputField name="probability(0)" optype="categorical" dataType="double" feature="probability" value="0"/>
            <OutputField name="probability(1)" optype="categorical" dataType="double" feature="probability" value="1"/>
        </Output>
        <ModelStats>
            <UnivariateStats field="age">
                <Counts totalFreq="100.0" missingFreq="0.0" invalidFreq="0.0"/>
                <NumericInfo minimum="20.0" maximum="50.0" mean="35.05" standardDeviation="9.365228240678386" median="40.5" interQuartileRange="18.0"/>
            </UnivariateStats>
            <UnivariateStats field="credit">
                <Counts totalFreq="100.0" missingFreq="0.0" invalidFreq="0.0"/>
                <NumericInfo minimum="501.0" maximum="699.0" mean="622.28" standardDeviation="76.1444784603585" median="662.0" interQuartileRange="150.5"/>
            </UnivariateStats>
            <UnivariateStats field="payfreq">
                <Counts totalFreq="100.0" missingFreq="0.0" invalidFreq="0.0"/>
                <NumericInfo minimum="2.0" maximum="4.0" mean="2.74" standardDeviation="0.9656086163658655" median="2.0" interQuartileRange="2.0"/>
            </UnivariateStats>
            <UnivariateStats field="gmi">
                <Counts totalFreq="100.0" missingFreq="0.0" invalidFreq="0.0"/>
                <NumericInfo minimum="1012.0" maximum="4197.0" mean="3119.4" standardDeviation="1282.4386379082625" median="4028.5" interQuartileRange="2944.0"/>
            </UnivariateStats>
        </ModelStats>
        <RegressionTable targetCategory="1" intercept="0.9994024132088255">
            <NumericPredictor name="age" coefficient="-0.1252021965856186"/>
            <NumericPredictor name="credit" coefficient="-8.682780007730786E-4"/>
            <NumericPredictor name="payfreq" coefficient="1.2605378393614861"/>
            <NumericPredictor name="gmi" coefficient="1.4681704138387003E-4"/>
        </RegressionTable>
        <RegressionTable targetCategory="0" intercept="0.0"/>
    </RegressionModel>
</PMML>

【问题讨论】:

我认为 PMML Predictor 节点使用 JPMML,它们的实现可能不完整。你能查一下Logistic Regression Predictor node吗?那应该输出概率。 感谢您的评论,@GáborBakos 但该节点会产生更棘手的问题,例如“NullPointerException”、“此节点不支持数字目标”等。 “PMML Predictor”节点应该是 KNIME 自己的实现。请考虑使用“JPMML 分类器”节点(概率是相关的分类模型),它曾经在 KNIME 实验室中可用。 【参考方案1】:

一种解决方案是使用数学公式节点将 sigmoid 函数应用于 PMML 预测器的输出。你试过吗?

【讨论】:

以上是关于逻辑回归 PMML 不会产生概率的主要内容,如果未能解决你的问题,请参考以下文章

SPSS中逻辑回归的预测概率是怎么算的

二分类逻辑回归及案例

逻辑回归--计算概率

ggplot2:逻辑回归 - 绘制概率和回归线

逻辑回归(Logistic Regression, LR)

python中的逻辑回归。概率阈值