PySpark 中是不是有与 scikit-learn 的 sample_weight 等效的参数?

Posted

技术标签:

【中文标题】PySpark 中是不是有与 scikit-learn 的 sample_weight 等效的参数?【英文标题】:Is there in PySpark a parameter equivalent to scikit-learn's sample_weight?PySpark 中是否有与 scikit-learn 的 sample_weight 等效的参数? 【发布时间】:2019-07-09 09:48:13 【问题描述】:

我目前正在使用scikit-learn 库提供的SGDClassifier。当我使用fit 方法时,我可以设置sample_weight 参数:

应用于单个样本的权重。如果没有提供,统一 假设权重。这些权重将乘以 class_weight (通过构造函数传递)如果 class_weight 是 指定

我想切换到 PySpark 并使用 LogisticRegression 类。无论如何,我找不到类似于sample_weight 的参数。有一个weightCol 参数,但我认为它做了一些不同的事情。

你有什么建议吗?

【问题讨论】:

我认为weightCol 正是这样做的 我明白了,@desertnaut 如果你正式回答,我会接受你的回答。我认为这是不同的东西,但似乎你是对的。 【参考方案1】:

有一个weightCol 参数,但我认为它做了一些不同的事情。

相反,Spark ML 的weightCol 正是这样做的;来自docs(强调添加):

weightCol = Param(parent='undefined', name='weightCol', doc='weight 列名。如果未设置或为空,我们将处理所有实例权重为 1.0。')

【讨论】:

以上是关于PySpark 中是不是有与 scikit-learn 的 sample_weight 等效的参数?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 PySpark 中创建自定义 Estimator

如何更改pyspark中的列元数据?

CORBA 中是不是有与 writeReplace 等价的方法?

WatchKit 中是不是有与 UIView 等效的类?

Spark Structured Streaming中是不是有与reduceByKeyAndWindow等价的东西?

插件中是不是有与 Bootstrap 类等效的类