在火花中添加管道模型的路径
Posted
技术标签:
【中文标题】在火花中添加管道模型的路径【英文标题】:add path for pipelinemodel in spark 【发布时间】:2021-12-25 18:27:48 【问题描述】:我想在 spark 中添加 Pipelinemodel
的路径以从我的本地文件系统加载模型,但它返回以下异常。
import org.apache.spark.ml.PipelineModel
val pipeline = PipelineModel.load("C:/Users/meh/Desktop/PARC_ACTIF_OM/Partie1_OM/Models_save")
Caused by: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/C:/Users/meh/Desktop/PARC_ACTIF_OM/Partie1_OM/Models_save/model_final.sav/metadata
at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:251)
at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:270)
at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:202)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250)
at scala.Option.getOrElse(Option.scala:121)
【问题讨论】:
我猜这些文件确实存在。您能否添加输出以显示以下权限:C:/Users/meh/Desktop/PARC_ACTIF_OM/Partie1_OM/Models_save/model_final.sav/metadata 元数据在执行时不存在,但我在 hdfs 中更改了工作,但我发现同样的错误 scala> val pipeline = PipelineModel.load("hdfs:/myhdfs/user/mba/model_final.sav") org.apache.hadoop.mapred.InvalidInputException: 输入路径不存在: hdfs: /myhdfs/user/mba/model_final.sav/metadata 【参考方案1】:如果 C:/Users/meh/Desktop/PARC_ACTIF_OM/Partie1_OM/Models_save/model_final.sav/metadata 不存在,则可能存在格式问题。您保存模型的格式不是加载正在寻找数据的格式。 (很明显,元数据文件夹丢失了,这似乎对负载至关重要。)
【讨论】:
我认为 piplinemodel 正在搜索文件的元数据以使用它来加载你觉得呢?以上是关于在火花中添加管道模型的路径的主要内容,如果未能解决你的问题,请参考以下文章
Scrapy基础————图片下载后将本地路径添加到Item中
如何根据 Django 中当前基于类的通用视图模型向模板加载器添加路径