RDD编程初级实践

Posted 2022-10-15 Moss_xx

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了RDD编程初级实践相关的知识，希望对你有一定的参考价值。

RDD编程初级实践

一、pyspark交互式编程
二、编写独立应用程序实现数据去重
三、编写独立应用程序实现求平均值问题

一、pyspark交互式编程

本作业提供分析数据data.txt，该数据集包含了某大学计算机系的成绩，数据格式如下所示：

Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
……

请根据给定的实验数据，在pyspark中通过编程来计算以下内容：
（1）该系总共有多少学生；
代码如下：

lines = sc.textFile("file:///usr/local/spark/sparksqldata/data.txt")
res = lines.map(lambda x:x.split(",")).map(lambda x:x[0])
sum = res.distinct()
sum.count()

结果如下：

（2）该系共开设了多少门课程；
代码如下：

lines = sc.textFile("file:///usr/local/spark/sparksqldata/data.txt")
res = lines.map(lambda x:x.split(",")).map(lambda x:x[1])
sum = res.distinct()
sum.count()

结果如下：

（3）Tom同学的总成绩平均分是多少；
代码如下：

lines = sc.textFile("file:///usr/local/spark/sparksqldata/data.txt")
res = lines.map(lambda x:x.split(",")).filter(lambda x:x[0] == 'Tom')
score = res.map(lambda x:int(x[2]))
sum_score = score.reduce(lambda x,y:x+y)
num = res.count()
avg = sum_score/num
print(avg)

结果如下：

（4）求每名同学的选修的课程门数；
代码如下：

lines = sc.textFile("file:///usr/local/spark/sparksqldata/data.txt")
res = lines.map(lambda x:x.split(",")).map(lambda x:(x[0],1))
each_res = res.reduceByKey(lambda x,y:x+y)
each_res.foreach(print)

结果如下：

（5）该系DataBase课程共有多少人选修；
代码如下：

lines = sc.textFile("file:///usr/local/spark/sparksqldata/data.txt")
res = lines.map(lambda x:x.split(",")).filter(lambda x:x[1] == 'DataBase')
res.count()

结果如下：

（6）各门课程的平均分是多少；
代码如下：

lines = sc.textFile("file:///usr/local/spark/sparksqldata/data.txt")
res = lines.map(lambda x:x.split(",")).map(lambda x:(x[1],(int(x[2]),1)))
temp = res.reduceByKey(lambda x,y:(x[0]+y[0],x[1]+y[1]))
avg = temp.map(lambda x:(x[0],round(x[1][0]/x[1][1],2)))
avg.foreach(print)

结果如下：

（7）使用累加器计算共有多少人选了DataBase这门课。
代码如下：

lines = sc.textFile("file:///usr/local/spark/sparksqldata/data.txt")
res = lines.map(lambda x:x.split(",")).filter(lambda x:x[1] == 'DataBase')
accum = sc.accumulator(0)
res.foreach(lambda x:accum.add(1))
accum.value

结果如下：

二、编写独立应用程序实现数据去重

对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。本文给出门课的成绩（A.txt、B.txt）下面是输入文件和输出文件的一个样例，供参考。
输入文件A的样例如下：

输入文件B的样例如下：

根据输入的文件A和B合并得到的输出文件C的样例如下：

实验步骤如下：
1，假设当前目录为/usr/local/spark/sparksqldata，在当前目录下新建一个remdup.py文件，复制下面代码；

from pyspark import SparkContext
sc = SparkContext('local','remdup')
lines1 = sc.textFile("file:///usr/local/spark/sparksqldata/A")
lines2 = sc.textFile("file:///usr/local/spark/sparksqldata/B")
lines = lines1.union(lines2) 
distinct_lines = lines.distinct() 
res = distinct_lines.sortBy(lambda x:x)
res.repartition(1).saveAsTextFile("file:///usr/local/spark/sparksqldata/result/file")

2，最后在目录/usr/local/spark/sparksqldata下执行下面命令执行程序（注意执行程序时请先退出pyspark shell，否则会出现“地址已在使用”的警告）；

python3 remdup.py

3，在目录/usr/local/spark/sparksqldata/result/file下即可得到结果文件part-00000。

三、编写独立应用程序实现求平均值问题

每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写Spark独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。本文给出门课的成绩（Algorithm.txt、Database.txt、Python.txt），下面是输入文件和输出文件的一个样例，供参考。
Algorithm成绩：

小明a 92
小红a 87
小新a 75
小丽a 90
小明b 92
...

Database成绩：

小明a 92
小红a 87
小新a 75
小丽a 84
小明b 92
...

Python成绩：

小明a 84
小红a 87
小新a 75
小丽a 90
小明b 86
...

平均成绩如下：

('小明n', 90.5)
('小新z', 99.0)
('小丽f', 88.0)
('小新y', 76.0)
('小丽c', 89.0)
('小明v', 88.0)
('小新c', 76.0)
('小红n', 87.0)
('小新e', 95.0)
('小明f', 81.0)
('小明b', 89.0)
('小明t', 89.0)
('小新b', 75.0)
...

实验步骤如下：
1，假设当前目录为/usr/local/spark/sparksqldata，在当前目录下新建一个avgscore.py文件，复制下面代码；

from pyspark import SparkContext
sc = SparkContext('local',' avgscore')
lines1 = sc.textFile("file:///usr/local/spark/sparksqldata/Algorithm.txt")
lines2 = sc.textFile("file:///usr/local/spark/sparksqldata/Database.txt")
lines3 = sc.textFile("file:///usr/local/spark/sparksqldata/Python.txt")
lines = lines1.union(lines2).union(lines3)
distinct_lines = lines.distinct()
lines4 = distinct_lines.sortBy(lambda x:x !="")//去除空行避免后面报错
data = lines4.map(lambda x:x.split(" ")).map(lambda x:(x[0],(int(x[1]),1)))
res = data.reduceByKey(lambda x,y:(x[0]+y[0],x[1]+y[1]))
result = res.map(lambda x:(x[0],round(x[1][0]/x[1][1],2))) 
result.repartition(1).saveAsTextFile("file:///usr/local/spark/sparksqldata/result1")

2，最后在目录/usr/local/spark/sparksqldata下执行下面命令执行程序（注意执行程序时请先退出pyspark shell，否则会出现“地址已在使用”的警告）；

python3 avgscore.py

3，在目录/usr/local/spark/sparksqldata/result1下即可得到结果文件part-00000。

以上是关于RDD编程初级实践的主要内容，如果未能解决你的问题，请参考以下文章