如何将实体主键映射到 Spark ML 预测?

Posted

技术标签:

【中文标题】如何将实体主键映射到 Spark ML 预测?【英文标题】:How to map entity primary key to Spark ML predictions? 【发布时间】:2019-07-23 22:30:53 【问题描述】:

我训练了一个 Spark ML 模型,用它对我的holdout 数据集进行了评分,现在需要查找特定实体的预测。

如何确定哪个预测是针对谁的?有没有办法可以将实体主键(例如 Member_ID)添加到我的预测输出中?

更具体地说:为了对数据集进行评分,我使用了: predictions = trained_model.transform(holdout_data)

它会生成一个包含以下列的数据框:“特征”、“标签”、“预测” (标签为响应变量)

如何找出每个预测对应的 Member_ID?

【问题讨论】:

【参考方案1】:

holdout_data 是否仅包含以下列:["features", "label"]?如果是这样,请将Member_ID 添加到其中。

pyspark.ml 模型的.transform() 方法添加额外的列predictionholdout_data,所以如果有Member_ID 开始,那么问题就解决了。

【讨论】:

谢谢,它有效。很高兴知道pyspark.ml.transform() 方法是如何工作的,我认为它只包含“功能”和“标签”列,所以不包括主键之类的东西。 没问题。没错,我也是这么认为的。

以上是关于如何将实体主键映射到 Spark ML 预测?的主要内容,如果未能解决你的问题,请参考以下文章

如何将非规范化表映射到两个实体?

如何在没有主键实体框架的情况下映射表

如何在 Spark 中获取 spark.ml NaiveBayes 概率向量而不是 [0-1] 类?

Spark ML 朴素贝叶斯类值到概率索引映射

如何首先在 Entity Framework 4 代码中映射复合主键?

JPA:将 OneToOne Long 值(不是实体)映射到另一个不是主键的表列