PySpark多项式回归中的参考组
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PySpark多项式回归中的参考组相关的知识,希望对你有一定的参考价值。
有谁知道Pyspark多项Logistic回归中的默认参考组是什么。例如,我们有A, B, C, and D
的多类结果/目标。
spark如何选择参考类别?在其他软件(例如R
,SAS
)的标准逻辑回归中,您可以自己设置参考组。因此,如果您的参考是A
,您可以将n-1
模型拟合在一起,并将目标类建模为A vs B, A vs C, and A vs D
。
您希望控制此过程,因为如果将具有较少数值(小观察样本)的结果设置为参考,则估计将不稳定。
Here is the link到pyspark的多项逻辑回归模型。这里的结果类是0,1,2,但没有明确参考是什么。我假设它可能是零,但不确定。
答案
我相信默认情况下,它不会使用参考组。这就是为什么,如果从链接运行剪辑,则会发现所有拦截的非零值。
- 请注意,多项式(softmax)和二进制损失之间存在差异。二进制案例
- 使用一个结果类作为“枢轴”,并使另一个类反对枢轴。在里面
- 在多项式情况下,softmax损失函数用于模拟每个类概率
- 独立。使用softmax loss会产生
K
系数集,同时使用pivot类- 产生
K - 1
系数集(二进制情况下的单个系数向量)。在里面- 二元情形,我们可以说系数在正负之间共享
- 班...
它继续讨论系数通常不可识别的方式(这就是人们选择参考标签的原因),但是当应用正则化时,系数确实变得可识别。
以上是关于PySpark多项式回归中的参考组的主要内容,如果未能解决你的问题,请参考以下文章