大数据Hadoop之——Scala基础
Posted 大数据老司机
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据Hadoop之——Scala基础相关的知识,希望对你有一定的参考价值。
文章目录
一、概述
Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。Spark就是使用Scala编写的。因此为了更好的学习大数据开发, 需要掌握Scala这门语言,当然Spark的兴起,也带动Scala语言的发展!官方文档:https://www.scala-lang.org/
二、Scala发展历史
- 联邦理工学院的马丁·奥德斯基(Martin Odersky)于2001年开始设计Scala。
- 马丁·奥德斯基是编译器及编程的狂热爱好者,长时间的编程之后,希望发明一种语言,能够让写程序这样的基础工作变得高效,简单。所以当接触到JAVA语言后,对JAVA这门便携式,运行在网络,且存在垃圾回收的语言产生了极大的兴趣,所以决定将函数式编程语言的特点融合到JAVA中,由此发明了两种语言(Pizza & Scala)。
Pizza和Scala极大地推动了Java编程语言的发展。
- JDK5.0 的泛型、增 强for循 环、自动类型转换等,都是从Pizza引入的新特性。
- JDK8.0 的类型推断、Lambda表达式就是从Scala引入的特性。
三、 Scala 和 Java 关系
Scala是一门以Java虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言(静态语言需要提前编译的如:Java、c、c++等,动态语言如:js)。
特点:
- Scala是一门多范式的编程语言,Scala支持面向对象和函数式编程。(多范式,就是多种编程方法的意思。有面向过程、面向对象、泛型、函数式四种程序设计方法。)
- Scala源代码(.scala)会被编译成Java字节码(.class),然后运行于JVM之上,并可以调用现有的Java类库,实现两种语言的无缝对接。
- Scala单作为一门语言来看,非常的简洁高效。
- Scala在设计时,马丁·奥德斯基是参考了Java的设计思想,可以说Scala是源于Java,同时马丁·奥德斯基也加入了自己的思想,将函数式编程语言的特点融合到JAVA中, 因此,对于学习过Java的同学,只要在学习Scala的过程中,搞清楚Scala和Java相同点和不同点,就可以快速的掌握Scala这门语言。
四、Scala 环境搭建(window)
1)下载安装JDK
1、下载JDK
http://www.oracle.com/technetwork/java/javase/downloads/index.html
按正常下载是需要先登录的,这里提供一个不用登录下载的方法
连接如下:https://www.oracle.com/webapps/redirect/signon?nexturl=https://download.oracle.com/
otn
/java/jdk/8u321-b07/df5ad55fdd604472a86a45a217032c7d/jdk-8u321-windows-x64.exe
其实只要后半部分,再把标红的otn
换成otn-pub
就可以直接下载了
下载完后就是傻瓜式安装了
2、设置环境变量
3、验证
$ java -version
2)下载安装Scala
1、下载Scala
Scala 官网地址:http://www.scala-lang.org/downloads
2.12.15版本:https://www.scala-lang.org/download/2.12.15.html
2、配置环境变量
3、验证
$ scala -version
$ scala
4、Scala 插件安装
默认情况下 IDEA 不支持 Scala 的开发,需要安装 Scala 插件。
插件怎么安装可以参考我之前的文章:大数据Hadoop之——搭建本地flink开发环境详解(window10)
五、class、object、case class、case object、trait区别
class
类似Java中的class;object Scala
不能定义静态成员,用定义单例对象代之;case class
被称为样例类,是一种特殊的类,常被用于模式匹配。- 在 Scala 中
trait(特征)
相当于 Java 的接口,与接口不同的是它还可以定义属性和方法的实现,这一点又更像 Java 的抽象类。 - 一般情况下 Scala 的类只能够继承单一父类,但是如果是 trait(特征) 的话就可以继承多个,从结果来看就是实现了多重继承。
1)class 和 object 关系
- 单例对象不能带参数,类可以
- 对象可以和类名一样时,object被称为伴生对象,class被称为伴生类;
- 类和伴生对象可以相互访问其私有属性,但是它们必须在一个源文件当中;
- 类只会被编译,不会被执行。要执行,必须在Object中。
2)case class 与 class 区别
case class
初始化的时候可以不用new,也可以加上;但是普通类必须加new;case class
默认实现了equals、hashCode方法;case class
默认是可以序列化的,实现了Serializable;case class
自动从scala.Product中继承一些函数;case class
构造函数参数是public的,我们可以直接访问;case class
默认情况下不能修改属性值;case class
最重要的功能,支持模式匹配,这也是定义case class的重要原因。
3)case class 和 case object 区别
- 类中有参和无参,当类有参数的时候,用case class ,当类没有参数的时候那么用case object。
4)总结
object
用于定义单例对象class
用于定义类trait
用于定义接口- 至于还有两个
case class / case object
类型,主要用于支持模式匹配。
六、变量和数据类型
1)注释
Scala 注释使用和 Java 完全一样。注释是一个程序员必须要具有的良好编程习惯。将自己的思想通过注释先整理出来,再
用代码去体现。
(1)单行注释://
(2)多行注释:/* */
(3)文档注释:/**
*
*/
2)变量和常量(重点)
常量:在程序执行的过程中,其值不会被改变的变量。
1、常量语法(var定义变量)
var 变量名 [: 变量类型] = 初始值 var i:Int = 10
2、常量语法(val定义常量)
val 常量名 [: 常量类型] = 初始值 val j:Int = 20
3、总结
- 声明变量时,类型可以省略,编译器自动推导,即类型推导
- 类型确定后,就不能修改,说明 Scala 是强数据类型语言。
- 变量声明时,必须要有初始值
- 在声明/定义一个变量时,可以使用 var 或者 val 来修饰,var 修饰的变量可改变,val 修饰的变量不可改。
4) 标识符的命名规范
Scala 对各种变量、方法、函数等命名时使用的字符序列称为标识符。即:凡是自己可以起名字的地方都叫标识符。
1、命名规则
Scala 中的标识符声明,基本和 Java 是一致的,但是细节上会有所变化,有以下三种规则:
- 以字母或者下划线开头,后接字母、数字、下划线
- 以操作符开头,且只包含操作符(+ - * / # !等)
- 用反引号`…`包括的任意字符串,即使是 Scala 关键字(39 个)也可以
- package, import, class, object, trait, extends, with, type, for
- private, protected, abstract, sealed, final, implicit, lazy, override
- try, catch, finally, throw
- if, else, match, case, do, while, for, return, yield
- def, val, var
- this, super
- new
- true, false, null
5)字符串输出
1、基本语法
- 字符串,通过+号连接
- printf 用法:字符串,通过%传值。
- 字符串模板(插值字符串):通过$获取变量值
2、键盘输入
在编程中,需要接收用户输入的数据,就可以使用键盘输入语句来获取。
基本语法
StdIn.readLine()、StdIn.readShort()、StdIn.readDouble()
6)数据类型(重点)
- Java基本类型:
char、byte、short、int、long、float、double、boolean
- Java引用类型:(对象类型)
- Java基本类型的包装类:
Character、Byte、Short、Integer、Long、Float、Double、Boolean
总结
- Scala中一切数据都是对象,都是
Any
的子类。 - Scala中数据类型分为两大类:数值类型(
AnyVal
)、
引用类型(AnyRef
),不管是值类型还是引用类型都是
对象。 - Scala数据类型仍然遵守,低精度的值类型向高精
度值类型,自动转换(隐式转换) - Scala中的
StringOps
是对Java中的String增强 - Unit:对应Java中的void,用于方法返回值的位置,表
示方法没有返回值。Unit
是 一个数据类型,只有一个对象
就是()
。Void不是数据类型,只是一个关键字 Null
是一个类型,只 有一个对 象就 是null。它是
所有引用类型(AnyRef
)的子类。Nothing
,是所有数据类型的子类,主要用在一个函数没有明确返回值时使用,因为这样我们可以把抛出的返回值,返回给任何的变量或者函数。
7)整数类型(Byte、Short、Int、Long)
数据类型 | 描述 |
---|---|
Byte [1] | 8 位有符号补码整数。数值区间为 -128 到 127 |
Short [2] | 16 位有符号补码整数。数值区间为 -32768 到 32767 |
Int [4] | 32 位有符号补码整数。数值区间为 -2147483648 到 2147483647 |
Long [8] | 64 位有符号补码整数。数值区间为 -9223372036854775808 到 |
9223372036854775807 = 2 的(64-1)次方-1 |
【示例】
- Scala 各整数类型有固定的表示范围和字段长度,不受具体操作的影响,以保证Scala 程序的可移植性。
object TestDataType
def main(args: Array[String]): Unit =
// 正确
var n1:Byte = 127
var n2:Byte = -128
// 错误
// var n3:Byte = 128
// var n4:Byte = -129
- Scala 的整型,默认为 Int 型,声明 Long 型,须后加‘l’或‘L’
object TestDataType
def main(args: Array[String]): Unit =
var n5 = 10
println(n5)
var n6 = 9223372036854775807L
println(n6)
- Scala 程序中变量常声明为 Int 型,除非不足以表示大数,才使用 Long
8) 浮点类型(Float、Double)
Scala 的浮点类型可以表示一个小数,比如 123.4f,7.8,0.12 等等。
数据类型 | 描述 |
---|---|
Float [4] | 32 位, IEEE 754 标准的单精度浮点数 |
Double [8] | 64 位 IEEE 754 标准的双精度浮点数 |
【示例】
- Scala 的浮点型常量默认为 Double 型,声明 Float 型常量,须后加‘f’或‘F’。
object TestDataType
def main(args: Array[String]): Unit =
// 建议,在开发中需要高精度小数时,请选择 Double
var n7 = 2.2345678912f
var n8 = 2.2345678912
println("n7=" + n7)
println("n8=" + n8)
运行的结果
9)字符类型(Char)
字符类型可以表示单个字符,字符类型是
Char
。
- 字符常量是用单引号
' '
括起来的单个字符。 \\t
:一个制表位,实现对齐的功能\\n
:换行符 尚硅谷大数据技术之 Scala\\\\
:表示\\\\"
:表示"
【示例】
object TestCharType
def main(args: Array[String]): Unit =
//(1)字符常量是用单引号 ' ' 括起来的单个字符。
var c1: Char = 'a'
println("c1=" + c1)
//注意:这里涉及自动类型提升,其实编译器可以自定判断是否超出范围,
//不过 idea 提示报错
var c2:Char = 'a' + 1
println(c2)
//(2)\\t :一个制表位,实现对齐的功能
println("姓名\\t 年龄")
//(3)\\n :换行符
println("西门庆\\n 潘金莲")
//(4)\\\\ :表示\\
println("c:\\\\水浒传\\\\avi")
//(5)\\" :表示"
println("\\"Scala hello world!!!\\"")
10)布尔类型(Boolean)
- 布尔类型也叫 Boolean 类型,Booolean 类型数据只允许取值 true 和 false
- boolean 类型 占1 个字节。
【示例】
object TestBooleanType
def main(args: Array[String]): Unit =
var isResult : Boolean = false
var isResult2 : Boolean = true
11)Unit 类型、Null 类型和 Nothing 类型(重点)
数据类型 | 述 |
---|---|
Unit | 表示无值,和其他语言中 void 等同。用作不返回任何结果的方法的结果类型。Unit 只有一个实例值,写成()。 |
Null | null , Null 类型只有一个实例值 null |
Nothing | Nothing 类型在 Scala 的类层级最低端;它是任何其他类型的子类型。当一个函数,我们确定没有正常的返回值,可以用 Nothing 来指定返回类型,这样有一个好处,就是我们可以把返回的值(异常)赋给其它的函数或者变量(兼容性) |
【示例】
Unit
类型用来标识过程,也就是没有明确返回值的函数。由此可见,Unit 类似于 Java 里的 void。Unit 只有一个实例——( ),这个实例也没有实质意义。
package test
object TestSpecialType
def main(args: Array[String]): Unit =
def sayOk : Unit = // unit 表示没有返回值,即 void
println(sayOk)
Null
类只有一个实例对象,Null 类似于 Java 中的 null 引用。Null 可以赋值给任意引用类型(AnyRef),但是不能赋值给值类型(AnyVal)。
object TestDataType
def main(args: Array[String]): Unit =
//null 可以赋值给任意引用类型(AnyRef),但是不能赋值给值类型
(AnyVal)
var cat = new Cat();
cat = null // 正确
var n1: Int = null // 错误
println("n1:" + n1)
class Cat
Nothing
,可以作为没有正常返回值的方法的返回类型,非常直观的告诉你这个方法不会正常返回,而且由于 Nothing 是其他任意类型的子类,他还能跟要求返回值的方法兼容。
object TestSpecialType
def main(args: Array[String]): Unit =
def test() : Nothing=
throw new Exception()
test
12)类型转换
1、数值类型自动转换
- 当 Scala 程序在进行赋值或者运算时,精度小的类型自动转换为精度大的数值类型,这个就是自动类型转换(隐式转换)。数据类型按精度(容量)大小排序为:
总结
- 自动提升原则:有多种类型的数据混合运算时,系统首先自动将所有数据转换成精度大的那种数据类型,然后再进行计算。
- 把精度大的数值类型赋值给精度小的数值类型时,就会报错,反之就会进行自动类型转换。
- (byte,short)和 char 之间不会相互自动转换。
- byte,short,char 他们三者可以计算,在计算时首先转换为 int 类型。
【示例】
object TestValueTransfer
def main(args: Array[String]): Unit =
//(1)自动提升原则:有多种类型的数据混合运算时,系统首先自动将所有数据转换成精度大的那种数值类型,然后再进行计算。
var n = 1 + 2.0
println(n) // n 就是 Double
//(2)把精度大的数值类型赋值给精度小的数值类型时,就会报错,反之就会进行自动类型转换。
var n2 : Double= 1.0
//var n3 : Int = n2 //错误,原因不能把高精度的数据直接赋值和低精度。
//(3)(byte,short)和 char 之间不会相互自动转换。
var n4 : Byte = 1
//var c1 : Char = n4 //错误
var n5:Int = n4
//(4)byte,short,char 他们三者可以计算,在计算时首先转换为 int类型。
var n6 : Byte = 1
var c2 : Char = 1
// var n : Short = n6 + c2 //当 n6 + c2 结果类型就是 int
// var n7 : Short = 10 + 90 //错误
2、强制类型转换
自动类型转换的逆过程,将精度大的数值类型转换为精度小的数值类型。使用时要加上强制转函数,但可能造成精度降低或溢出,格外要注意。
- 将数据由高精度转换为低精度,就需要使用到强制转换
- 强转符号只针对于最近的操作数有效,往往会使用小括号提升优先级
【示例】
package test
object TestForceTransfer
def main(args: Array[String]): Unit =
//(1)将数据由高精度转换为低精度,就需要使用到强制转换
var n1: Int = 2.5.toInt // 这个存在精度损失
//(2)强转符号只针对于最近的操作数有效,往往会使用小括号提升优先级
var r1: Int = 10 * 3.5.toInt + 6 * 1.5.toInt // 10 *3 + 6*1= 36
var r2: Int = (10 * 3.5 + 6 * 1.5).toInt // 44.0.toInt = 44
println("r1=" + r1 + " r2=" + r2)
3、数值类型和 String 类型间转换
在程序开发中,我们经常需要将基本数值类型转成 String 类型。或者将 String 类型转成基本数值类型。
- 基本类型转 String 类型(语法:将基本类型的值+"" 即可)
- String 类型转基本数值类型(语法:s1.toInt、s1.toFloat、s1.toDouble、s1.toByte、s1.toLong、s1.toShort)
【示例】
object TestStringTransfer
def main(args: Array[String]): Unit =
//(1)基本类型转 String 类型(语法:将基本类型的值+"" 即可)
var str1 : String = true + ""
var str2 : String = 4.5 + ""
var str3 : String = 100 +""
//(2)String 类型转基本数值类型(语法:调用相关 API)
var s1 : String = "12"
var n1 : Byte = s1.toByte
var n2 : Short = s1.toShort
var n3 : Int = s1.toInt
var n4 : Long = s1.toLong
【温馨提示】在将 String 类型转成基本数值类型时,要确保 String 类型能够转成有效的数据,比如我们可以把"123",转成一个整数,但是不能把"hello"转成一个整数。
七、运算符
Scala 运算符的使用和 Java 运算符的使用基本相同,只有个别细节上不同。
1)算术运算符
- 对于除号“/”,它的整数除和小数除是有区别的:整数之间做除法时,只保留整数部分而舍弃小数部分。
- 对一个数取模 a%b,和 Java 的取模规则一样,就是取余数。
【示例】
object TestArithmetic
def main(args: Array[String]): Unit =
//(1)对于除号“/”,它的整数除和小数除是有区别的:整数之间做除法时,只保留整数部分而舍弃小数部分。
var r1: Int = 10 / 3 // 3
println("r1=" + r1)
var r2: Double = 10 / 3 // 3.0
println("r2=" + r2)
var r3: Double = 10.0 / 3 // 3.3333
println("r3=" + r3)
println("r3=" + r3.formatted("%.2f")) // 含义:保留小数点 2位,使用四舍五入
//(2)对一个数取模 a%b,和 Java 的取模规则一样。
var r4 = 10 % 3 // 1
println("r4=" + r4)
2)关系运算符(比较运算符)
【示例】
object TestRelation
def main(args: Array[String]): Unit =
// 测试:>、>=、<=、<、==、!=
var a: Int = 2
var b: Int = 1
println(a > b) // true
println(a >= b) // true
println(a <= b) // false
println(a < b) // false
println("a==b" + (a == b)) // false
println(a != b) // true
- Java 和 Scala 中关于==的区别
Java:
==比较两个变量本身的值,即两个对象在内存中的首地址;
equals 比较字符串中所包含的内容是否相同。
public static void main(String[] args)
String s1 = "abc";
String s2 = new String("abc");
System.out.println(s1 == s2);
System.out.println(s1.equals(s2));
输出结果:
false
true
Scala:==更加类似于 Java 中的 equals,参照 jd 工具
def main(args: Array[String]): Unit =
val s1 = "abc"
val s2 = new String("abc")
println(s1 == s2)
println(s1.eq(s2))
输出结果:
true
false
3)逻辑运算符
用于连接多个条件(一般来讲就是关系表达式),最终的结果也是一个 Boolean 值。
2021年大数据常用语言Scala(三十一):scala面向对象 特质(trait)