Spark记录-Scala集合
Posted 信方互联网硬汉
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark记录-Scala集合相关的知识,希望对你有一定的参考价值。
Scala列表
Scala列表与数组非常相似,列表的所有元素都具有相同的类型,但有两个重要的区别。 首先,列表是不可变的,列表的元素不能通过赋值来更改。 其次,列表表示一个链表,而数组是平的。
具有类型T
的元素的列表的类型被写为List[T]
。
尝试以下示例,这里列出了为各种数据类型定义的列表。
// List of Strings
val fruit: List[String] = List("apples", "oranges", "pears")
// List of Integers
val nums: List[Int] = List(1, 2, 3, 4)
// Empty List.
val empty: List[Nothing] = List()
// Two dimensional list
val dim: List[List[Int]] =
List(
List(1, 0, 0),
List(0, 1, 0),
List(0, 0, 1)
)
所有列表都可以使用两个基本构建块定义,尾部为Nil
和::
,它的发音为cons
。 Nil
也代表空列表。以上列表可以定义如下。
// List of Strings
val fruit = "apples"::("oranges"::("pears"::Nil))
// List of Integers
val nums = 1::(2::(3::(4::Nil)))
// Empty List.
val empty = Nil
// Two dimensional list
val dim = (1::(0::(0::Nil))) ::
(0::(1::(0::Nil))) ::
(0::(0::(1::Nil)))::Nil
列表基本操作
列表上的所有操作都可以用以下三种方法表示。
序号 | 方法 | 描述 |
---|---|---|
1 | head | 此方法返回列表的第一个元素。 |
2 | tail | 此方法返回由除第一个之外的所有元素组成的列表。 |
3 | isEmpty | 如果列表为空,则此方法返回true ,否则返回false 。 |
以下示例显示如何使用上述方法。
示例
object Demo {
def main(args: Array[String]) {
val fruit = "apples"::("oranges"::("pears"::Nil))
val nums = Nil
println( "Head of fruit : " + fruit.head )
println( "Tail of fruit : " + fruit.tail )
println( "Check if fruit is empty : " + fruit.isEmpty )
println( "Check if nums is empty : " + nums.isEmpty )
}
}
将上述程序保存在源文件:Demo.scala中,使用以下命令编译和执行此程序。
D:\>scalac Demo.scala
D:\>scala Demo
Head of fruit : apples
Tail of fruit : List(oranges, pears)
Check if fruit is empty : false
Check if nums is empty : true
连接列表
可以使用:::
操作符或List.:::()
方法或List.concat()
方法添加两个或多个列表。 请看下面给出的例子 -
示例
object Demo {
def main(args: Array[String]) {
val fruit1 = "apples"::("oranges"::("pears"::Nil))
val fruit2 = "mangoes"::("banana"::Nil)
// use two or more lists with ::: operator
var fruit = fruit1 ::: fruit2
println( "fruit1 ::: fruit2 : " + fruit )
// use two lists with Set.:::() method
fruit = fruit1.:::(fruit2)
println( "fruit1.:::(fruit2) : " + fruit )
// pass two or more lists as arguments
fruit = List.concat(fruit1, fruit2)
println( "List.concat(fruit1, fruit2) : " + fruit )
}
}
将上述程序保存在源文件:Demo.scala中,使用以下命令编译和执行此程序。
D:\>scalac Demo.scala
D:\>scala Demo
fruit1 ::: fruit2 : List(apples, oranges, pears, mangoes, banana)
fruit1.:::(fruit2) : List(mangoes, banana, apples, oranges, pears)
List.concat(fruit1, fruit2) : List(apples, oranges, pears, mangoes, banana)
创建统一列表
可以使用List.fill()
方法创建由零个或多个相同元素的副本组成的列表。 请尝试以下示例程序。
示例
object Demo {
def main(args: Array[String]) {
val fruit = List.fill(3)("apples") // Repeats apples three times.
println( "fruit : " + fruit )
val num = List.fill(10)(2) // Repeats 2, 10 times.
println( "num : " + num )
}
}
将上述程序保存在源文件:Demo.scala中,使用以下命令编译和执行此程序。
D:\>scalac Demo.scala
D:\>scala Demo
fruit : List(apples, apples, apples)
num : List(2, 2, 2, 2, 2, 2, 2, 2, 2, 2)
制表函数
您可以使用一个函数与List.tabulate()
方法在列表之前应用于列表的所有元素。它的参数与List.fill
类似:第一个参数列表给出要创建的列表的维度,第二个参数列出了列表的元素。唯一的区别是,它不修复元素,而是从函数中计算。
请尝试以下示例程序 -
object Demo {
def main(args: Array[String]) {
// Creates 5 elements using the given function.
val squares = List.tabulate(6)(n => n * n)
println( "squares : " + squares )
val mul = List.tabulate( 4,5 )( _ * _ )
println( "mul : " + mul )
}
}
将上述程序保存在源文件:Demo.scala中,使用以下命令编译和执行此程序。
D:\>scalac Demo.scala
D:\>scala Demo
squares : List(0, 1, 4, 9, 16, 25)
mul : List(List(0, 0, 0, 0, 0), List(0, 1, 2, 3, 4),
List(0, 2, 4, 6, 8), List(0, 3, 6, 9, 12))
反向列表顺序
可以使用List.reverse
方法来反转列表的所有元素。以下示例显示了使用情况 -
object Demo {
def main(args: Array[String]) {
val fruit = "apples"::("oranges"::("pears"::Nil))
println( "Before reverse fruit : " + fruit )
println( "After reverse fruit : " + fruit.reverse )
}
}
将上述程序保存在源文件:Demo.scala中,使用以下命令编译和执行此程序。
D:\>scalac Demo.scala
D:\>scala Demo
Before reverse fruit : List(apples, oranges, pears)
After reverse fruit : List(pears, oranges, apples)
Scala列表方法
以下是使用列表时可以使用的重要方法。有关可用方法的完整列表,请查看Scala的官方文档。
序号 | 方法 | 描述 |
---|---|---|
1 | def +(elem: A): List[A] |
向列表中添加一个元素 |
2 | def ::(x: A): List[A] |
向列表开头位置添加一具元素。 |
3 | def :::(prefix: List[A]): List[A] |
在此列表前添加给定列表中的元素。 |
4 | def ::(x: A): List[A] |
在列表的开头添加一个元素x |
5 | def addString(b: StringBuilder): StringBuilder |
将列表的所有元素附加到字符串构建器。 |
6 | def addString(b: StringBuilder, sep: String): StringBuilder |
使用分隔符字符串将列表的所有元素附加到字符串构建器。 |
7 | def apply(n: Int): A |
通过列表中的索引选择一个元素。 |
8 | def contains(elem: Any): Boolean |
测试列表是否包含给定元素值。 |
9 | def copyToArray(xs: Array[A], start: Int, len: Int): Unit |
将列表的元素复制到数组。在给定的数组xs 中填充该列表的最多为长度(len )元素,从start 位置开始。 |
10 | def distinct: List[A] |
从列表中创建一个新的列表,而不会有任何重复的元素。 |
11 | def drop(n: Int): List[A] |
返回除了前n 个之外的所有元素。 |
12 | def dropRight(n: Int): List[A] |
返回除最后n 个之外的所有元素。 |
13 | def dropWhile(p: (A) => Boolean): List[A] |
删除满足谓词的元素的最长前缀。 |
14 | def endsWith[B](that: Seq[B]): Boolean |
测试列表是否以给定的顺序结束。 |
15 | def equals(that: Any): Boolean |
任意序列的equals 方法,将此序列与其他对象进行比较。 |
16 | def exists(p: (A) => Boolean): Boolean |
测试一个谓词是否适用于列表的某些元素。 |
17 | def filter(p: (A) => Boolean): List[A] |
返回列表中满足谓词的所有元素。 |
18 | def forall(p: (A) => Boolean): Boolean |
测试列表中所有元素的谓词是否成立。 |
19 | def foreach(f: (A) => Unit): Unit |
将函数f 应用于列表的所有元素。 |
20 | def head: A |
选择列表的第一个元素。 |
21 | def indexOf(elem: A, from: Int): Int |
在索引位置之后,查找列表中第一个出现值的索引。 |
22 | def init: List[A] |
返回除上一个以外的所有元素。 |
23 | def intersect(that: Seq[A]): List[A] |
计算列表和另一个序列之间的多集合交集。 |
24 | def isEmpty: Boolean |
测试列表是否为空。 |
25 | def iterator: Iterator[A] |
在可迭代对象中包含的所有元素上创建一个新的迭代器。 |
26 | def last: A |
返回最后一个元素。 |
27 | def lastIndexOf(elem: A, end: Int): Int |
查找列表中某些值的最后一次出现的索引; 在给定的结束指数之前或之中。 |
28 | def length: Int |
返回列表的长度。 |
29 | def map[B](f: (A) => B): List[B] |
通过将函数应用于此列表的所有元素来构建新集合。 |
30 | def max: A |
查找最大元素。 |
31 | def min: A |
查找最小元素。 |
32 | def mkString: String |
显示字符串中列表的所有元素。 |
33 | def mkString(sep: String): String |
使用分隔符字符串显示字符串中列表的所有元素。 |
34 | def reverse: List[A] |
以相反的顺序返回带有元素的新列表。 |
35 | def sorted[B >: A]: List[A] |
根据顺序规则对列表进行排序。 |
36 | def startsWith[B](that: Seq[B], offset: Int): Boolean |
测试列表是否包含给定索引处的给定序列。 |
37 | def sum: A |
将这个集合所有元素相加。 |
38 | def tail: List[A] |
返回除第一个之外的所有元素。 |
39 | def take(n: Int): List[A] |
返回第一个“n”个元素。 |
40 | def takeRight(n: Int): List[A] |
返回最后的“n”个元素。 |
41 | def toArray: Array[A] |
将列表转换为数组。 |
42 | def toBuffer[B >: A]: Buffer[B] |
将列表转换为可变缓冲区。 |
43 | def toMap[T, U]: Map[T, U] |
将此列表转换为映射。 |
44 | def toSeq: Seq[A] |
将列表转换为序列。 |
45 | def toSet[B >: A]: Set[B] |
将列表转换为一个集合。 |
46 | def toString(): String |
将列表转换为字符串。 |
Scala集合(Set)
Scala Set
是相同类型成对的不同元素的集合。换句话说,一个集合是不包含重复元素的集合。 集合有两种:不可变(immutable
)和可变(mutable
)。可变对象和不可变对象之间的区别在于,当对象不可变时,对象本身无法更改。
默认情况下,Scala使用不可变的集合(Set
)。 如果要使用可变集合(Set
),则必须明确导入scala.collection.mutable.Set
类。 如果要在同一集合中使用可变集合和不可变集合,则可以继续引用不可变集作为集合(Set
),但可以将可变集合称为mutable.Set
。
// Empty set of integer type
var s : Set[Int] = Set()
// Set of integer type
var s : Set[Int] = Set(1,3,5,7)
// 或者
var s = Set(1,3,5,7)
通过定义一个空集合,类型注释是必要的,因为系统需要将具体的类型分配给变量。
集合基本操作
所有对集合的操作都可以用以下三种方法来表示:
序号 | 方法 | 描述 |
---|---|---|
1 | head | 此方法返回列表的第一个元素。 |
2 | tail | 此方法返回由除第一个之外的所有元素组成的列表。 |
3 | isEmpty | 如果列表为空,则此方法返回true ,否则返回false 。 |
以下示例显示如何使用上述方法。
示例
object Demo {
def main(args: Array[String]) {
val fruit = Set("apples", "oranges", "pears")
val nums: Set[Int] = Set()
println( "Head of fruit : " + fruit.head )
println( "Tail of fruit : " + fruit.tail )
println( "Check if fruit is empty : " + fruit.isEmpty )
println( "Check if nums is empty : " + nums.isEmpty )
}
}
将上述程序保存在源文件:Demo.scala中,使用以下命令编译和执行此程序。
D:\>scalac Demo.scala
D:\>scala Demo
Head of fruit : apples
Tail of fruit : Set(oranges, pears)
Check if fruit is empty : false
Check if nums is empty : true
连接集合
您可以使用++
运算符或Set.++()
方法连接两个或多个集合,但是在添加集合时,它将删除重复的元素。
以下是连接两个集合的例子 -
object Demo {
def main(args: Array[String]) {
val fruit1 = Set("apples", "oranges", "pears")
val fruit2 = Set("mangoes", "banana")
// use two or more sets with ++ as operator
var fruit = fruit1 ++ fruit2
println( "fruit1 ++ fruit2 : " + fruit )
// use two sets with ++ as method
fruit = fruit1.++(fruit2)
println( "fruit1.++(fruit2) : " + fruit )
}
}
将上述程序保存在源文件:Demo.scala中,使用以下命令编译和执行此程序。
D:\>scalac Demo.scala
D:\>scala Demo
fruit1 ++ fruit2 : Set(banana, apples, mangoes, pears, oranges)
fruit1.++(fruit2) : Set(banana, apples, mangoes, pears, oranges)
在集合中查找最大值,最小元素
可以使用Set.min
方法和Set.max
方法来分别找出集合中元素的最大值和最小值。 以下是显示程序的示例。
object Demo {
def main(args: Array[String]) {
val num = Set(5,6,9,20,30,45)
// find min and max of the elements
println( "Min element in Set(5,6,9,20,30,45) : " + num.min )
println( "Max element in Set(5,6,9,20,30,45) : " + num.max )
}
}
将上述程序保存在源文件:Demo.scala中,使用以下命令编译和执行此程序。
D:\>scalac Demo.scala
D:\>scala Demo
Min element in Set(5,6,9,20,30,45) : 5
Max element in Set(5,6,9,20,30,45) : 45
查找交集值
可以使用Set.&
或Set.intersect
方法来查找两个集合之间的交集(相交值)。尝试以下示例来显示用法。
object Demo {
def main(args: Array[String]) {
val num1 = Set(5,6,9,20,30,45)
val num2 = Set(50,60,9,20,35,55)
// find common elements between two sets
println( "num1.&(num2) : " + num1.&(num2) )
println( "num1.intersect(num2) : " + num1.intersect(num2) )
}
}
将上述程序保存在源文件:Demo.scala中,使用以下命令编译和执行此程序。
D:\>scalac Demo.scala
D:\>scala Demo
num1.&(num2) : Set(20, 9)
num1.intersect(num2) : Set(20, 9)
Scala集方法
有关可用方法的完整列表,请查看Scala的官方文档。
Scala映射
Scala映射(Map
)是一组键/值对的对象。 任何值都可以根据键来进行检索。键在映射中是唯一的,但值不一定是唯一的。映射也称为哈希表。映射有两种,不可变的和可变的。可变对象和不可变对象之间的区别在于,当对象不可变时,对象本身无法更改。
默认情况下,Scala使用不可变映射(Map
)。如果要使用可变集合(Set
),则必须明确导入scala.collection.mutable.Map
类。如果想同时使用可变的和不可变映射(Map
),那么可以继续引用不可变映射(Map
),但是可以将mutable
集合引用mutable.Map
。
以下是声明不可变映射(Map
)的示例声明 -
// Empty hash table whose keys are strings and values are integers:
var A:Map[Char,Int] = Map()
// A map with keys and values.
val colors = Map("red" -> "#FF0000", "azure" -> "#F0FFFF")
在定义空的映射(Map
)时,类型注释是必需的,因为系统需要将具体的类型分配给变量。 如果我们要向映射(Map
)添加一个键值对,可以使用运算符+
,如下所示 -
A + = (‘I‘ -> 1)
A + = (‘J‘ -> 5)
A + = (‘K‘ -> 10)
A + = (‘L‘ -> 100)
集合基本操作
映射(Map
)的所有操作都可以用以下三种方法来表示:
序号 | 方法 | 描述 |
---|---|---|
1 | keys | 此方法返回包含映射中每个键的迭代。 |
2 | values | 此方法返回一个包含映射中每个值的迭代。 |
3 | isEmpty | 如果列表为空,则此方法返回true ,否则返回false 。 |
尝试以下示例程序显示Map方法的用法。
示例
object Demo {
def main(args: Array[String]) {
val colors = Map("red" -> "#FF0000", "azure" -> "#F0FFFF", "peru" -> "#CD853F")
val nums: Map[Int, Int] = Map()
println( "Keys in colors : " + colors.keys )
println( "Values in colors : " + colors.values )
println( "Check if colors is empty : " + colors.isEmpty )
println( "Check if nums is empty : " + nums.isEmpty )
}
}
将上述程序保存在源文件:Demo.scala中,使用以下命令编译和执行此程序。
D:\>scalac Demo.scala
D:\>scala Demo
Keys in colors : Set(red, azure, peru)
Values in colors : MapLike(#FF0000, #F0FFFF, #CD853F)
Check if colors is empty : false
Check if nums is empty : true
连接映射
可以使用++
运算符或Map.++()
方法连接两个或多个映射,但在添加映射时,它将删除重复的键。
尝试以下示例程序连接两个映射。
以下是连接两个映射的例子 -
object Demo {
def main(args: Array[String]) {
val colors1 = Map("red" -> "#FF0000", "azure" -> "#F0FFFF", "peru" -> "#CD853F")
val colors2 = Map("blue" -> "#0033FF", "yellow" -> "#FFFF00", "red" -> "#FF0000")
// use two or more Maps with ++ as operator
var colors = colors1 ++ colors2
println( "colors1 ++ colors2 : " + colors )
// use two maps with ++ as method
colors = colors1.++(colors2)
println( "colors1.++(colors2)) : " + colors )
}
}
将上述程序保存在源文件:Demo.scala中,使用以下命令编译和执行此程序。
D:\>scalac Demo.scala
D:\>scala Demo
colors1 ++ colors2 : Map(blue -> #0033FF, azure -> #F0FFFF,
peru -> #CD853F, yellow -> #FFFF00, red -> #FF0000)
colors1.++(colors2)) : Map(blue -> #0033FF, azure -> #F0FFFF,
peru -> #CD853F, yellow -> #FFFF00, red -> #FF0000)
打印映射的键和值
可以使用foreach
循环迭代映射的键和值。在这里,使用与迭代器相关联的方法foreach
来遍历键。 以下是示例程序。
object Demo {
def main(args: Array[String]) {
val colors = Map("red" -> "#FF0000", "azure" -> "#F0FFFF","peru" -> "#CD853F")
colors.keys.foreach{ i =>
print( "Key = " + i )
println(" Value = " + colors(i) )}
}
}
将上述程序保存在源文件:Demo.scala中,使用以下命令编译和执行此程序。
D:\>scalac Demo.scala
D:\>scala Demo
Key = red Value = #FF0000
Key = azure Value = #F0FFFF
Key = peru Value = #CD853F
查找检查映射中的键
可以使用Map.contains
方法来测试映射中给定的键是否存在。尝试以下示例程序进行键检查。
object Demo {
def main(args: Array[String]) {
val colors = Map("red" -> "#FF0000", "azure" -> "#F0FFFF", "peru" -> "#CD853F")
if( colors.contains( "red" )) {
println("Red key exists with value :" + colors("red"))
} else {
println("Red key does not exist")
}
if( colors.contains( "maroon" )) {
println("Maroon key exists with value :" + colors("maroon"))
} else {
println("Maroon key does not exist")
}
}
}
将上述程序保存在源文件:Demo.scala中,使用以下命令编译和执行此程序。
D:\>scalac Demo.scala
D:\>scala Demo
Red key exists with value :#FF0000
Maroon key does not exist
以上是关于Spark记录-Scala集合的主要内容,如果未能解决你的问题,请参考以下文章
Spark:scala - 如何将集合从 RDD 转换为另一个 RDD