在火花中添加管道模型的路径

Posted

技术标签:

【中文标题】在火花中添加管道模型的路径【英文标题】:add path for pipelinemodel in spark 【发布时间】:2021-12-25 18:27:48 【问题描述】:

我想在 spark 中添加 Pipelinemodel 的路径以从我的本地文件系统加载模型,但它返回以下异常。

import org.apache.spark.ml.PipelineModel
val pipeline =  PipelineModel.load("C:/Users/meh/Desktop/PARC_ACTIF_OM/Partie1_OM/Models_save")

Caused by: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/C:/Users/meh/Desktop/PARC_ACTIF_OM/Partie1_OM/Models_save/model_final.sav/metadata
at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:251)
at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:270)
at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:202)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250)
at scala.Option.getOrElse(Option.scala:121)

【问题讨论】:

我猜这些文件确实存在。您能否添加输出以显示以下权限:C:/Users/meh/Desktop/PARC_ACTIF_OM/Partie1_OM/Models_save/model_final.sav/metadata 元数据在执行时不存在,但我在 hdfs 中更改了工作,但我发现同样的错误 scala> val pipeline = PipelineModel.load("hdfs:/myhdfs/user/mba/model_final.sav") org.apache.hadoop.mapred.InvalidInputException: 输入路径不存在: hdfs: /myhdfs/user/mba/model_final.sav/metadata 【参考方案1】:

如果 C:/Users/meh/Desktop/PARC_ACTIF_OM/Partie1_OM/Models_save/model_final.sav/metadata 不存在,则可能存在格式问题。您保存模型的格式不是加载正在寻找数据的格式。 (很明显,元数据文件夹丢失了,这似乎对负载至关重要。)

【讨论】:

我认为 piplinemodel 正在搜索文件的元数据以使用它来加载你觉得呢?

以上是关于在火花中添加管道模型的路径的主要内容,如果未能解决你的问题,请参考以下文章

Scrapy基础————图片下载后将本地路径添加到Item中

无论如何将火花分区写入不同的子路径?

通过 xargs 到 `tag` 命令行工具的管道路径

如何根据 Django 中当前基于类的通用视图模型向模板加载器添加路径

在利用资产管道的 Rails 应用程序中,用于 css 文件中背景图像的正确路径是啥?

将火花管道转换为数据框