Spark机器学习实战-问题汇总[持续更新]
Posted 纯洁の小黄瓜
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark机器学习实战-问题汇总[持续更新]相关的知识,希望对你有一定的参考价值。
前言
主要记录在实战过程中遇到的各种问题及解决方法。
问题
问题1:mml.Lightgbm进行fit操作的过程中
-
TypeError: ‘JavaPackage’ object is not callable
-
解决方法:这类问题一般都是在spark-submit或者spark config阶段未指定正确jar导致的,所有只要在submit或者config里面添加lightgbm对应的jar包即可:
--jars hdfs://yourpath/mmlspark_2.11-0.18.1.jar,hdfs://yourpath/com.microsoft.ml.lightgbm_lightgbmlib-2.2.350.jar
问题2:from mmlspark.lightgbm import LightGBMClassifier or LightGBMRegressor
- Pyspark ModuleNotFoundError: No module named ‘mmlspark’ or mmlspark.lightgbm._LightGBMRegressor or _LightGBMClassifier
- 解决方法:这个主要是没有安装好mmlspark的缘故,mmlspark是微软出的基于spark的机器学习库,这个库pip源安装的时候是老版本0.0.11111111,这种版本太老了,需要替换成新版的mmlspark:
step1: 从链接中下载指定版本的jar包:比如说我们下载mmlspark_2.11的0.18.1版本的jar包
step2: 解压jar包:mmlspark_2.11-0.18.1.jar
step3: 将mmlspark复制到 /yourpath/anaconda3/envs/mes/lib/python3.7/site-packages/
以上是关于Spark机器学习实战-问题汇总[持续更新]的主要内容,如果未能解决你的问题,请参考以下文章
手把手带你玩转Spark机器学习-使用Spark构建分类模型