PySpark多项式回归中的参考组

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PySpark多项式回归中的参考组相关的知识,希望对你有一定的参考价值。

有谁知道Pyspark多项Logistic回归中的默认参考组是什么。例如,我们有A, B, C, and D的多类结果/目标。

spark如何选择参考类别?在其他软件(例如RSAS)的标准逻辑回归中,您可以自己设置参考组。因此,如果您的参考是A,您可以将n-1模型拟合在一起,并将目标类建模为A vs B, A vs C, and A vs D

您希望控制此过程,因为如果将具有较少数值(小观察样本)的结果设置为参考,则估计将不稳定。

Here is the link到pyspark的多项逻辑回归模型。这里的结果类是0,1,2,但没有明确参考是什么。我假设它可能是零,但不确定。

答案

我相信默认情况下,它不会使用参考组。这就是为什么,如果从链接运行剪辑,则会发现所有拦截的非零值。

来自scala来源:https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/ml/optim/aggregator/LogisticAggregator.scala

  • 请注意,多项式(softmax)和二进制损失之间存在差异。二进制案例
  • 使用一个结果类作为“枢轴”,并使另一个类反对枢轴。在里面
  • 在多项式情况下,softmax损失函数用于模拟每个类概率
  • 独立。使用softmax loss会产生K系数集,同时使用pivot类
  • 产生K - 1系数集(二进制情况下的单个系数向量)。在里面
  • 二元情形,我们可以说系数在正负之间共享
  • 班...

它继续讨论系数通常不可识别的方式(这就是人们选择参考标签的原因),但是当应用正则化时,系数确实变得可识别。

以上是关于PySpark多项式回归中的参考组的主要内容,如果未能解决你的问题,请参考以下文章

PySpark 中的回归。使用哪个库[重复]

使用带有二项式族的 glm 更改参考组

如何用Python进行线性回归以及误差分析

Scikit - 具有布尔值和特征选择的多项式回归

机器学习线性回归(最小二乘法/梯度下降法)多项式回归logistic回归softmax回归

视频什么是非线性模型与R语言多项式回归局部平滑样条 广义相加GAM分析工资数据|数据分享|附代码数据