撤消规模数据pyspark

Posted

技术标签:

【中文标题】撤消规模数据pyspark【英文标题】:undo scale data pyspark 【发布时间】:2018-08-30 08:59:04 【问题描述】:
from pyspark.ml.feature import MinMaxScaler
from pyspark.ml.linalg import Vectors

df = spark.createDataFrame([
   (0, Vectors.dense([5.0, 0.1, -1.0]),),
   (1, Vectors.dense([2.0, 2.1, 1.0]),),
   (2, Vectors.dense([3.0, 10.1, 7.0]),)
], ["id", "features"])

scaler = MinMaxScaler(inputCol="features", outputCol="scaledFeatures")
scaler_model = scaler.fit(df)
scaled_data = scalerModel.transform(df)

scaled_data 是转换后的数据。

在拟合机器学习模型后,我如何做一个反比例来分析结果?

【问题讨论】:

【参考方案1】:

MinMaxScaler 将缩放特征添加为新的scaledFeatures 列,因此您的实际数据不会丢失。

您可以使用features 列分析您的scaledFeatures 输出列,然后再将其用于机器学习模型。

【讨论】:

以上是关于撤消规模数据pyspark的主要内容,如果未能解决你的问题,请参考以下文章

功能数据结构中的简单“撤消”

在运行循环的旋转中使用核心数据撤消组

多个窗口的核心数据和单独的撤消管理器?

核心数据保存更改撤消

撤消 Pandas 数据框

核心数据:禁用特定属性的撤消。推荐的方法不起作用