spark单机搭建

Posted zixilonglong

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark单机搭建相关的知识,希望对你有一定的参考价值。

 

 

 说明:单机版的Spark的机器上只需要安装Scala和JDK即可,其他诸如Hadoop、Zookeeper之类的东西可以一概不安装

只需下载如下三个包

技术分享图片

1.安装jdk

技术分享图片

配置环境变量

vim /etc/profile

技术分享图片

路径根据自己的解压路径配置

之后将其生效

source    /etc/profile

2安装scala

技术分享图片

配置环境变量

技术分享图片

同样执行命令source    /etc/profile 

3,最后安装spark

技术分享图片

同样配置环境变量,执行命令使其生效,ps,path中的$PATH必须要加,否则bash脚本失效

技术分享图片

那么现在看spark是否能成功启动

cd之spark的bin目录,执行./bin/spark-shell

技术分享图片

则进入scala交互环境,则成功启动

写个python脚本测试下

# _*_ coding:utf-8 _*_
from __future__ import print_function

from pyspark.sql import SparkSession
from pyspark.sql import Row

def json_dataset_example(spark):
    sc = spark.sparkContext

    #读取json串
    path = "/home/hadoop/spark-2.2.0-bin-hadoop2.7/mydemo/employees.json"
    peopleDF = spark.read.json(path)

    peopleDF.printSchema()

    peopleDF.createOrReplaceTempView("employees")

    teenagerNamesDF = spark.sql("SELECT name FROM employees WHERE salary BETWEEN 3500 AND 4500")
    teenagerNamesDF.show()

    #直接字符串
    jsonStrings = [{"name":"Yin","address":{"city":"Columbus","state":"Ohio"}}]
    otherPeopleRDD = sc.parallelize(jsonStrings)
    otherPeople = spark.read.json(otherPeopleRDD)
    otherPeople.show()

if __name__ == "__main__":
    spark = SparkSession         .builder         .appName("myPeople demo")         .getOrCreate()
    json_dataset_example(spark)
    spark.stop()

提交测试脚本

技术分享图片

 输出

 技术分享图片

技术分享图片

没毛病,收工

 

以上是关于spark单机搭建的主要内容,如果未能解决你的问题,请参考以下文章

spark单机环境搭建以及快速入门

在 Ubuntu16.04 中搭建 Spark 单机开发环境 (JDK + Scala + Spark)

Spark单机伪分布式环境搭建完全分布式环境搭建Spark-on-yarn模式搭建

Ubuntu下搭建单机Hadoop和Spark集群环境

Mac下hadoop,hive, hbase,spark单机环境搭建

Linux(基于CentOS7)单机版Spark环境搭建