Spark机器学习实战-问题汇总[持续更新]

Posted 纯洁の小黄瓜

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark机器学习实战-问题汇总[持续更新]相关的知识,希望对你有一定的参考价值。

前言

主要记录在实战过程中遇到的各种问题及解决方法。

问题

问题1:mml.Lightgbm进行fit操作的过程中

  • TypeError: ‘JavaPackage’ object is not callable

  • 解决方法:这类问题一般都是在spark-submit或者spark config阶段未指定正确jar导致的,所有只要在submit或者config里面添加lightgbm对应的jar包即可:

--jars hdfs://yourpath/mmlspark_2.11-0.18.1.jar,hdfs://yourpath/com.microsoft.ml.lightgbm_lightgbmlib-2.2.350.jar

问题2:from mmlspark.lightgbm import LightGBMClassifier or LightGBMRegressor

  • Pyspark ModuleNotFoundError: No module named ‘mmlspark’ or mmlspark.lightgbm._LightGBMRegressor or _LightGBMClassifier
  • 解决方法:这个主要是没有安装好mmlspark的缘故,mmlspark是微软出的基于spark的机器学习库,这个库pip源安装的时候是老版本0.0.11111111,这种版本太老了,需要替换成新版的mmlspark:
    step1:链接中下载指定版本的jar包:比如说我们下载mmlspark_2.11的0.18.1版本的jar包
jar包目录

step2: 解压jar包:mmlspark_2.11-0.18.1.jar

step3: 将mmlspark复制到 /yourpath/anaconda3/envs/mes/lib/python3.7/site-packages/

以上是关于Spark机器学习实战-问题汇总[持续更新]的主要内容,如果未能解决你的问题,请参考以下文章

手把手带你玩转Spark机器学习-使用Spark构建分类模型

Spark 异常汇总(持续更新)

STM32系列汇总博主的STM32实战快速进阶之路(持续更新)

机器学习资料大汇总

第二期:关于十大数据相关问答汇总,关注持续更新中哦~

Spark机器学习实战视频