PySpark 中的回归。使用哪个库[重复]

Posted

技术标签:

【中文标题】PySpark 中的回归。使用哪个库[重复]【英文标题】:Regression in PySpark. Which library to Use [duplicate] 【发布时间】:2017-09-06 16:45:18 【问题描述】:

“pyspark.mllib.regression”和“pyspark.ml.regression”有什么区别

应该使用哪个

【问题讨论】:

【参考方案1】:

这取决于您的 spark 版本。 ml 是官方推荐的。

从 Spark 2.0 开始,spark.mllib 包中基于 RDD 的 API 具有 进入维护模式。 Spark 的主要机器学习 API 现在是 spark.ml 包中基于 DataFrame 的 API。

希望这会有所帮助!

【讨论】:

以上是关于PySpark 中的回归。使用哪个库[重复]的主要内容,如果未能解决你的问题,请参考以下文章

使用 Pyspark 训练随机森林回归模型

PySpark多项式回归中的参考组

Python pyspark 将 DF 写入 .csv 并存储在本地 C 盘

pyspark使用数据帧运行线性回归

如何使用 PySpark 测量逻辑回归的精度和召回率?

Pyspark 线性回归梯度下降交叉验证