PySpark 中是不是有与 scikit-learn 的 sample_weight 等效的参数?
Posted
技术标签:
【中文标题】PySpark 中是不是有与 scikit-learn 的 sample_weight 等效的参数?【英文标题】:Is there in PySpark a parameter equivalent to scikit-learn's sample_weight?PySpark 中是否有与 scikit-learn 的 sample_weight 等效的参数? 【发布时间】:2019-07-09 09:48:13 【问题描述】:我目前正在使用scikit-learn
库提供的SGDClassifier
。当我使用fit
方法时,我可以设置sample_weight
参数:
应用于单个样本的权重。如果没有提供,统一 假设权重。这些权重将乘以 class_weight (通过构造函数传递)如果 class_weight 是 指定
我想切换到 PySpark 并使用 LogisticRegression
类。无论如何,我找不到类似于sample_weight
的参数。有一个weightCol
参数,但我认为它做了一些不同的事情。
你有什么建议吗?
【问题讨论】:
我认为weightCol
正是这样做的
我明白了,@desertnaut 如果你正式回答,我会接受你的回答。我认为这是不同的东西,但似乎你是对的。
【参考方案1】:
有一个
weightCol
参数,但我认为它做了一些不同的事情。
相反,Spark ML 的weightCol
正是这样做的;来自docs(强调添加):
weightCol
= Param(parent='undefined', name='weightCol', doc='weight 列名。如果未设置或为空,我们将处理所有实例权重为 1.0。')
【讨论】:
以上是关于PySpark 中是不是有与 scikit-learn 的 sample_weight 等效的参数?的主要内容,如果未能解决你的问题,请参考以下文章
CORBA 中是不是有与 writeReplace 等价的方法?