博学谷学习记录超强总结,用心分享|狂野大数据课程基于Pycharm完成PySpark入门案例(上)的总结分析

Posted ZLWQ

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了博学谷学习记录超强总结,用心分享|狂野大数据课程基于Pycharm完成PySpark入门案例(上)的总结分析相关的知识,希望对你有一定的参考价值。

1 清理远端环境

以上就删除远端所有的配置了, 那么如何在重新加回来呢?

最后配置自动提交:

2 Pycharm连接远程环境

背景说明:

	一般在企业中, 会存在两套线上环境, 一套环境是用于开发(测试)环境, 一套环境是用于生产环境, 首先一般都是先在开发测试环境上进行编写代码, 并且在此环境上进行测试, 当整个项目全部开发完成后(阶段开发完成后), 需要将其上线到生产环境中, 面向使用者
	
	如果说还是按照之前的本地模式开发方案, 每个人的环境可能都不同, 导致整个团队无法统一一套开发的环境,从而导致后续在进行测试, 上线的时候, 出现各种各样的环境问题
	
	pycharm提供了一种解决方案: 远程连接方案, 允许所有的程序员都去连接远端的测试环境, 确保大家的环境都是统一的, 避免各种环境问题的发生,而且由于是连接的远程环境, 所有在pycharm编写代码 都会自动上传到远端服务器中, 在执行代码的时候, 相当于是直接在远端环境上进行执行操作
	
注意: 
	本次这里配置远端环境, 指的连接虚拟机中虚拟环境, 可以配置为Base环境, 也可以配置为其他的虚拟环境, 但是目前建议配置为base环境, 因为base环境自带python包更全面一些

检测是否OK:

后期如果发现, 已经打上勾了, 但是依然无法自动上传代码, 可以执行手动上传方案

最后, 构建项目:

3 WordCount代码实现_Local

3.1 WordCount案例流程实现

3.2 编写代码实现


可能出现的错误:

原因: 找不到JAVA_HOME环境

解决方案:  需要在代码中指定远端的环境地址 以及 在node1环境中初始化JAVA_HOME地址
	第一步: 在mian函数上面添加以下内容
	os.environ['SPARK_HOME'] = '/export/server/spark'
	os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
	os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'
	
	第二步:在node1的 /root/.bashrc 中配置初始化环境的配置
	=export JAVA_HOME=/export/server/jdk1.8.0_241

3 [扩展]部署windows开发环境(不需要做)

  • 1- 第一步: 需要安装Python 环境 , 建议使用anaconda 来安装即可

  • 2- 第二步: 在Python安装pySpark

执行:
	pip install pyspark==3.1.2

  • 3- 第三步: 配置 hadoop的环境

首先, 需要将 hadoop-3.3.0 放置到一个没有中文, 没有空格的目录下

接着将目录中bin目录下有一个 hadoop.dll文件, 放置在c:/windows/system32 目录下  (配置后, 需要重启电脑)

最后, 将这个hadoop3.3.0 配置到环境变量中: 

配置后, 一定一直点确定退出, 否则就白配置了…

  • 4-第四步: 配置spark本地环境

首先, 需要将 spark-3.1.2... 放置到一个没有中文, 没有空格的目录下

最后, 将这个 spark-3.1.2... 配置到环境变量中:

配置后, 一定一直点确定退出, 否则就白配置了…

  • 5-配置pySpark环境
需要修改环境变量

配置后, 一定一直点确定退出, 否则就白配置了…

  • 6- 配置 jdk的环境:

首先: 需要将 jdk1.8 放置在一个没有中文, 没有空格的目录下

接着:要在环境变量中配置 JAVA_HOME, 并在path设置

以上是关于博学谷学习记录超强总结,用心分享|狂野大数据课程基于Pycharm完成PySpark入门案例(上)的总结分析的主要内容,如果未能解决你的问题,请参考以下文章

博学谷学习记录超强总结,用心分享 | SpringCache常用注解介绍+集成redis

博学谷学习记录超强总结,用心分享 | yarn的执行流程

博学谷学习记录超强总结,用心分享 | 小程序 canvas生成图片

博学谷学习记录超强总结,用心分享 | hive 查询分组join

博学谷学习记录超强总结,用心分享 | 产品经理还得懂点儿运营

博学谷学习记录 自我总结 用心分享 | Alibaba- GateWay