逻辑回归 PMML 不会产生概率
Posted
技术标签:
【中文标题】逻辑回归 PMML 不会产生概率【英文标题】:Logistic Regression PMML won't Produce Probabilities 【发布时间】:2019-04-06 07:08:47 【问题描述】:作为机器学习部署项目的一部分,我构建了一个概念验证,其中我使用 R 的 glm
函数和 python 的 scikit-learn
为二元分类任务创建了两个简单的逻辑回归模型。之后,我使用 R 中的 pmml
函数和 Python 中的 from sklearn2pmml.pipeline import PMMLPipeline
函数将这些经过训练的简单模型转换为 PMML
s。
接下来,我在 KNIME 中打开了一个非常简单的工作流程,看看是否可以将这两个 PMML
s 付诸实施。基本上,这个概念验证的目标是测试 IT 是否可以使用我简单地交给他们的PMML
s 对新数据进行评分。这个练习必须产生概率,就像原来的逻辑回归一样。
在 KNIME 中,我使用 CSV Reader
节点读取只有 4 行的测试数据,使用 PMML Reader
节点读取 PMML
,最后让该模型使用 PMML Predictor
节点对测试数据进行评分。问题是预测不是我想要的最终概率,而是在那之前的一步(系数总和乘以自变量值,我猜称为 XBETA?)。请看下图中的工作流程和预测:
要获得最终概率,需要通过 sigmoid 函数运行这些数字。所以基本上对于第一条记录,我需要1/(1+exp(-2.654)) = 0.93
,而不是2.654
。我确信PMML
文件包含启用 KNIME(或任何其他类似平台)为我执行此 sigmoid 操作所需的信息,但我找不到它。这就是我迫切需要帮助的地方。
我查看了 regression 和 general regression PMML
文档,我的 PMML 看起来还不错,但我不知道为什么我无法获得这些概率。
非常感谢任何帮助!
附件 1 - 这是我的测试数据:
age credit payfreq gmi
25 550 4 1500
27 650 4 3400
35 600 2 3200
40 680 2 4000
附件 2 - 这是我的 R 生成的 PMML:
<?xml version="1.0"?>
<PMML version="4.2" xmlns="http://www.dmg.org/PMML-4_2" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.dmg.org/PMML-4_2 http://www.dmg.org/v4-2/pmml-4-2.xsd">
<Header copyright="Copyright (c) 2018 fakici" description="Generalized Linear Regression Model">
<Extension name="user" value="fakici" extender="Rattle/PMML"/>
<Application name="Rattle/PMML" version="1.4"/>
<Timestamp>2018-10-30 17:36:39</Timestamp>
</Header>
<DataDictionary numberOfFields="5">
<DataField name="bad" optype="categorical" dataType="double"/>
<DataField name="age" optype="continuous" dataType="double"/>
<DataField name="credit" optype="continuous" dataType="double"/>
<DataField name="payfreq" optype="continuous" dataType="double"/>
<DataField name="gmi" optype="continuous" dataType="double"/>
</DataDictionary>
<GeneralRegressionModel modelName="General_Regression_Model" modelType="generalLinear" functionName="regression" algorithmName="glm" distribution="binomial" linkFunction="logit" targetReferenceCategory="1">
<MiningSchema>
<MiningField name="bad" usageType="predicted" invalidValueTreatment="returnInvalid"/>
<MiningField name="age" usageType="active" invalidValueTreatment="returnInvalid"/>
<MiningField name="credit" usageType="active" invalidValueTreatment="returnInvalid"/>
<MiningField name="payfreq" usageType="active" invalidValueTreatment="returnInvalid"/>
<MiningField name="gmi" usageType="active" invalidValueTreatment="returnInvalid"/>
</MiningSchema>
<Output>
<OutputField name="Predicted_bad" feature="predictedValue"/>
</Output>
<ParameterList>
<Parameter name="p0" label="(Intercept)"/>
<Parameter name="p1" label="age"/>
<Parameter name="p2" label="credit"/>
<Parameter name="p3" label="payfreq"/>
<Parameter name="p4" label="gmi"/>
</ParameterList>
<FactorList/>
<CovariateList>
<Predictor name="age"/>
<Predictor name="credit"/>
<Predictor name="payfreq"/>
<Predictor name="gmi"/>
</CovariateList>
<PPMatrix>
<PPCell value="1" predictorName="age" parameterName="p1"/>
<PPCell value="1" predictorName="credit" parameterName="p2"/>
<PPCell value="1" predictorName="payfreq" parameterName="p3"/>
<PPCell value="1" predictorName="gmi" parameterName="p4"/>
</PPMatrix>
<ParamMatrix>
<PCell parameterName="p0" df="1" beta="14.4782176066955"/>
<PCell parameterName="p1" df="1" beta="-0.16633241754673"/>
<PCell parameterName="p2" df="1" beta="-0.0125492006930571"/>
<PCell parameterName="p3" df="1" beta="0.422786551151072"/>
<PCell parameterName="p4" df="1" beta="-0.0005500245399861"/>
</ParamMatrix>
</GeneralRegressionModel>
</PMML>
附件 3 - 这是我的 Python 生成的 PMML:
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<PMML xmlns="http://www.dmg.org/PMML-4_2" xmlns:data="http://jpmml.org/jpmml-model/InlineTable" version="4.2">
<Header>
<Application name="JPMML-SkLearn" version="1.5.8"/>
<Timestamp>2018-10-30T22:10:32Z</Timestamp>
</Header>
<MiningBuildTask>
<Extension>PMMLPipeline(steps=[('mapper', DataFrameMapper(default=False, df_out=False,
features=[(['age', 'credit', 'payfreq', 'gmi'], [ContinuousDomain(high_value=None, invalid_value_replacement=None,
invalid_value_treatment='return_invalid', low_value=None,
missing_value_replacement=None, missing_value_treatment='as_is',
missing_values=None, outlier_treatment='as_is', with_data=True,
with_statistics=True), Imputer(axis=0, copy=True, missing_values='NaN', strategy='mean', verbose=0)])],
input_df=False, sparse=False)),
('classifier', LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
verbose=0, warm_start=False))])</Extension>
</MiningBuildTask>
<DataDictionary>
<DataField name="bad" optype="categorical" dataType="double">
<Value value="0"/>
<Value value="1"/>
</DataField>
<DataField name="age" optype="continuous" dataType="double">
<Interval closure="closedClosed" leftMargin="20.0" rightMargin="50.0"/>
</DataField>
<DataField name="credit" optype="continuous" dataType="double">
<Interval closure="closedClosed" leftMargin="501.0" rightMargin="699.0"/>
</DataField>
<DataField name="payfreq" optype="continuous" dataType="double">
<Interval closure="closedClosed" leftMargin="2.0" rightMargin="4.0"/>
</DataField>
<DataField name="gmi" optype="continuous" dataType="double">
<Interval closure="closedClosed" leftMargin="1012.0" rightMargin="4197.0"/>
</DataField>
</DataDictionary>
<RegressionModel functionName="classification" normalizationMethod="softmax" algorithmName="glm" targetFieldName="bad">
<MiningSchema>
<MiningField name="bad" usageType="target"/>
<MiningField name="age" missingValueReplacement="35.05" missingValueTreatment="asMean"/>
<MiningField name="credit" missingValueReplacement="622.28" missingValueTreatment="asMean"/>
<MiningField name="payfreq" missingValueReplacement="2.74" missingValueTreatment="asMean"/>
<MiningField name="gmi" missingValueReplacement="3119.4" missingValueTreatment="asMean"/>
</MiningSchema>
<Output>
<OutputField name="probability(0)" optype="categorical" dataType="double" feature="probability" value="0"/>
<OutputField name="probability(1)" optype="categorical" dataType="double" feature="probability" value="1"/>
</Output>
<ModelStats>
<UnivariateStats field="age">
<Counts totalFreq="100.0" missingFreq="0.0" invalidFreq="0.0"/>
<NumericInfo minimum="20.0" maximum="50.0" mean="35.05" standardDeviation="9.365228240678386" median="40.5" interQuartileRange="18.0"/>
</UnivariateStats>
<UnivariateStats field="credit">
<Counts totalFreq="100.0" missingFreq="0.0" invalidFreq="0.0"/>
<NumericInfo minimum="501.0" maximum="699.0" mean="622.28" standardDeviation="76.1444784603585" median="662.0" interQuartileRange="150.5"/>
</UnivariateStats>
<UnivariateStats field="payfreq">
<Counts totalFreq="100.0" missingFreq="0.0" invalidFreq="0.0"/>
<NumericInfo minimum="2.0" maximum="4.0" mean="2.74" standardDeviation="0.9656086163658655" median="2.0" interQuartileRange="2.0"/>
</UnivariateStats>
<UnivariateStats field="gmi">
<Counts totalFreq="100.0" missingFreq="0.0" invalidFreq="0.0"/>
<NumericInfo minimum="1012.0" maximum="4197.0" mean="3119.4" standardDeviation="1282.4386379082625" median="4028.5" interQuartileRange="2944.0"/>
</UnivariateStats>
</ModelStats>
<RegressionTable targetCategory="1" intercept="0.9994024132088255">
<NumericPredictor name="age" coefficient="-0.1252021965856186"/>
<NumericPredictor name="credit" coefficient="-8.682780007730786E-4"/>
<NumericPredictor name="payfreq" coefficient="1.2605378393614861"/>
<NumericPredictor name="gmi" coefficient="1.4681704138387003E-4"/>
</RegressionTable>
<RegressionTable targetCategory="0" intercept="0.0"/>
</RegressionModel>
</PMML>
【问题讨论】:
我认为 PMML Predictor 节点使用 JPMML,它们的实现可能不完整。你能查一下Logistic Regression Predictor node吗?那应该输出概率。 感谢您的评论,@GáborBakos 但该节点会产生更棘手的问题,例如“NullPointerException”、“此节点不支持数字目标”等。 “PMML Predictor”节点应该是 KNIME 自己的实现。请考虑使用“JPMML 分类器”节点(概率是相关的分类模型),它曾经在 KNIME 实验室中可用。 【参考方案1】:一种解决方案是使用数学公式节点将 sigmoid 函数应用于 PMML 预测器的输出。你试过吗?
【讨论】:
以上是关于逻辑回归 PMML 不会产生概率的主要内容,如果未能解决你的问题,请参考以下文章