《OD学spark》20160924scala基础

Posted 沙漏哟

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《OD学spark》20160924scala基础相关的知识,希望对你有一定的参考价值。

拓展:

Hadoop 3.0

NameNode HA

NameNode是Active

NameNode是Standby可以有多个

HBase

Cluster

单节点故障?

HBaster -> BackMaster

HRegionServer

WEBUI 60010

 


Spark 课程安排
分为两个部分:
第一部分:基础篇
SCALA:1天
SparkCore:2天 - MapReduce
SparkSQL:1天 - Hive Shark = Hive on Spark
关键,企业中必用的,必须掌握
SparkStreaming:1天 - Storm
DStream
企业实时数据统计分析
Spark 2.0
StructureStreaming
第二部分:项目篇
基于Spark交互式用户行为分析系统
三天
额外扩展:
Spark MLlib学习 1天

Spark:
加州大学伯克利分校AMPLab
AMP
A:算法
M:机器
P:人类

=============================================================
1、为什么学习SCALA
-1,Spark框架SCALA编程、Kafka
源码
-2,Spark编程
SCALA、Python、JAVA、R
细心:
Spark官方文档、讲义,Spark编程代码都是Python语言

databrick
金砖

JAVA
C阵营(C、C#、C++)
Python - Spark
火的


函数
没有放在类中
方法
放在类中


隐式转换
"偷龙转凤"


大数据框架,”helloworld"程序就WordCount
hadoop -> (hadoop, 1) -> (hadoop, list(11,1,1)) -> (hadoop, 14)

rdd.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
-1,
line.toString().split(" ")

==========================================================
Spark 1.x
Scala 2.10.x 4
Spark 2.x
Scala 2.11.x 8


Scala 语言
交互式编程语言,Shell类似,交互式命令行
正是由于提供交互式命令行,所以使得Spark程序开发、测试,很方便

对于Scala语言来说,IDE工具
The Scala IDE (based on Eclipse),
支持不是很好,提示,编译语法
IntelliJ IDEA with the Scala plugin,
最多,支持很好
NetBeans IDE with the Scala plugin.

DELIMITED FIELDS TERMINATED BY ‘\t‘

DELIMITED FIELDS TERMINATED BY char [ESCAPED BY char]]

T => U
表示函数
确定一个方法的两个标准
-1,参数
个数、类型
-2,返回值
(Int, Int) => Int

def map(f: T => U): RDD ={

}

 

在JAVA中,循环来说,通常有两个关键字
break
跳出整个循环
continue
跳出当前的循环

回顾一下:
JAVA中的FOR循环
for(int index = 1 ; index ++ ; index <= 10){
println(index)
}


for(index <- 1 to 10){
println(index)
}

apply()方法


 

以上是关于《OD学spark》20160924scala基础的主要内容,如果未能解决你的问题,请参考以下文章

《OD学spark》20160925 Spark Core

《OD学Spark》20161022

大数据学习之Scala语言基本语法学习36

Spark学习之Spark安装

2小时速学大数据编程语言 Scala 秘籍

Spark常用的算子以及Scala函数总结