数据挖掘——流数据分析实训

Posted raodi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘——流数据分析实训相关的知识,希望对你有一定的参考价值。



中软国际《分布式计算框架》机试题

姓名 __ _ ____ 学校 _____ _______ 专业 ____________________ 联系电话 _____________________
电子邮件 __________________________________________
注意事项:考试时间120分钟,满分100分。
请创建以自己姓名命名的文件夹,并创建以题号命名的子文件夹,对试题答案进行分类。
请不要在试卷上涂写与试题无关的标记。

(一) 编程题(共100分)
1.某公司2018年第一季度职员工资数据, 格式如下: (40分)

 

 

1月                              2月                             3月
1)成功连接HDFS服务;(10分)
2)若/salaryInput目录不存在,创建这个目录;(10分)
3)成功上传职员工资数据文件到HDFS分布式文件系统中存储。(20分)

2.分析HDFS中/salaryInput目录下的职员工资数据 (60分)
1)计算第一季度每位职员的季度总工资;(10分)
2)计算第一季度每位职员的月度平均工资;(10分)
3)计算第一季度每位职员的月度最大工资;(10分)
4)计算第一季度公司所发的工资总数;(15分)
5)计算出第一季度工资最高的职员姓名。(15分)
提示:每个小题可以单独使用一个MR程序来计算,部分小题可以使用一个MR程序一起计算。

技术图片

 

以上是关于数据挖掘——流数据分析实训的主要内容,如果未能解决你的问题,请参考以下文章

lo流

IO流

流的使用

PHP伪协议

直播技术原理讲解

Java IO包装流如何关闭?