“红亚杯”-大数据环境搭建与数据采集技能线上专题赛赛题

Posted 2021-11-06 慕铭yikm

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了“红亚杯”-大数据环境搭建与数据采集技能线上专题赛赛题相关的知识，希望对你有一定的参考价值。

系列文章目录

集群安装搭建赛题解析

构建数据仓库赛题解析

目录

“红亚杯”-大数据环境搭建与数据采集技能线上专题赛赛题

一、集群安装搭建（70 / 70分）

core-site.xml参数配置详情

hdfs-site.xml参数配置详情

yarn-site.xml参数配置详情

mapred-site.xml参数配置详情

二、构建数据仓库（30 / 30分）

“红亚杯”-大数据环境搭建与数据采集技能线上专题赛赛题

前言

根据“红亚杯”-大数据环境搭建与数据采集技能线上专题赛以及鈴音.博主文章结合整理，附上资料链接。

在此鸣谢

资料链接

链接：https://pan.baidu.com/s/1ytGL3cLGQxGltl5bHrSBQQ
提取码：yikm

一、集群安装搭建（70 / 70分）

1.比赛框架

本次比赛为分布式集群搭建，共三台节点，其中master作为主节点，slave1、salve2为从节点；

2.比赛内容

基础配置：修改主机名、主机映射、时区修改、时间同步、定时任务、免密访问；
JDK安装：环境变量；
Zookeeper部署：环境变量、配置文件zoo.cfg、myid；
Hadoop部署：环境变量、配置文件修改、设置节点文件、格式化、开启集群；
Hive部署：mysql数据库配置、服务器端配置、客户端配置。

3.版本说明

内置安装/依赖包（/usr/package）	已安装服务	系统版本
hadoop-2.7.3.tar.gz	ntp	CentOS Linux release 7.3.1611 (Core)
zookeeper-3.4.10.tar.gz	mysql-community-server
apache-hive-2.1.1-bin.tar.gz
jdk-8u171-linux-x64.tar.gz
mysql-connector-java-5.1.47-bin.jar

core-site.xml参数配置详情

官方文档：http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml

core-default.xml与core-site.xml的功能是一样的，如果在core-site.xml里没有配置的属性，则会自动会获取core-default.xml里的相同属性的值

属性	值	说明
fs.default.name	hdfs://????	定义master的URI和端口
hadoop.tmp.dir	/????	临时文件夹，指定后需将使用到的所有子级文件夹都要手动创建出来，否则无法正常启动服务。

hdfs-site.xml参数配置详情

属性	值	说明
dfs.replication	???	hdfs数据块的复制份数，默认3，理论上份数越多跑数速度越快，但是需要的存储空间也更多。
dfs.namenode.name.dir	file:/usr/hadoop/hadoop-2.7.3/hdfs/????	NN所使用的元数据保存
dfs.datanode.data.dir	file:/usr/hadoop/hadoop-2.7.3/hdfs/????	真正的datanode数据保存路径，可以写多块硬盘，逗号分隔

yarn-site.xml参数配置详情

属性	值	说明
yarn.resourcemanager.admin.address	${yarn.resourcemanager.hostname}:18141	`ResourceManager` 对管理员暴露的访问地址。管理员通过该地址向RM发送管理命令等。
yarn.nodemanager.aux-services	mapreduce_shuffle	NodeManager上运行的附属服务。需配置成mapreduce_shuffle，才可运行MapReduce程序

mapred-site.xml参数配置详情

属性	值	说明
mapreduce.framework.name	yarn	指定MR运行框架，默认为local

二、构建数据仓库（30 / 30分）

1.比赛框架

本次比赛为分布式集群搭建，共三台节点，其中master作为主节点，slave1、salve2为从节点；

2.比赛内容

基础配置：修改主机名、主机映射、时区修改、时间同步、定时任务、免密访问；
JDK安装：环境变量；
Zookeeper部署：环境变量、配置文件zoo.cfg、myid；
Hadoop部署：环境变量、配置文件修改、设置节点文件、格式化、开启集群；
Hive部署：Mysql数据库配置、服务器端配置、客户端配置。

3.版本说明

内置安装/依赖包（/usr/package）	已安装服务	系统版本
hadoop-2.7.3.tar.gz	ntp	CentOS Linux release 7.3.1611 (Core)
zookeeper-3.4.10.tar.gz	mysql-community-server
apache-hive-2.1.1-bin.tar.gz
jdk-8u171-linux-x64.tar.gz
mysql-connector-java-5.1.47-bin.jar

4.数据仓库架构说明
集群中使用远程模式，使用外部数据库MySQL用于存储元数据，使用client/thrift server的连接方式进行访问。其中slave2节mysql数据库，slave1作为hive服务器端，master作为hive客户端。

以上是关于“红亚杯”-大数据环境搭建与数据采集技能线上专题赛赛题的主要内容，如果未能解决你的问题，请参考以下文章

数字中心荣获“厦门大数据安全开放创新应用大赛·交通专题”算法赛一等奖

2021年安徽省大数据与人工智能应用竞赛人工智能(网络赛)-本科组赛题

2021年全国职业院校技能大赛 “大数据技术与应用”—模拟赛题

2021年全国行业职业技能竞赛暨第四届全国大学生大数据技能竞赛——职教学生组线上选拔赛

大数据和区块链行业赛启动仪式盛大开启，直播间等你哦！

走进大数据 | hadoop spark环境搭建及idea scala maven集成开发spark任务