“红亚杯”-大数据环境搭建与数据采集技能线上专题赛赛题
Posted 慕铭yikm
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了“红亚杯”-大数据环境搭建与数据采集技能线上专题赛赛题相关的知识,希望对你有一定的参考价值。
系列文章目录
构建数据仓库赛题解析
目录
“红亚杯”-大数据环境搭建与数据采集技能线上专题赛赛题
前言
根据“红亚杯”-大数据环境搭建与数据采集技能线上专题赛以及鈴音.博主文章结合整理,附上资料链接。
在此鸣谢
资料链接
链接:https://pan.baidu.com/s/1ytGL3cLGQxGltl5bHrSBQQ
提取码:yikm
一、 集群安装搭建(70 / 70分)
1.比赛框架
本次比赛为分布式集群搭建,共三台节点,其中master作为主节点,slave1、salve2为从节点;
2.比赛内容
- 基础配置:修改主机名、主机映射、时区修改、时间同步、定时任务、免密访问;
- JDK安装:环境变量;
- Zookeeper部署:环境变量、配置文件zoo.cfg、myid;
- Hadoop部署:环境变量、配置文件修改、设置节点文件、格式化、开启集群;
- Hive部署:mysql数据库配置、服务器端配置、客户端配置。
3.版本说明
内置安装/依赖包(/usr/package) | 已安装服务 | 系统版本 |
---|---|---|
hadoop-2.7.3.tar.gz | ntp | CentOS Linux release 7.3.1611 (Core) |
zookeeper-3.4.10.tar.gz | mysql-community-server | |
apache-hive-2.1.1-bin.tar.gz | ||
jdk-8u171-linux-x64.tar.gz | ||
mysql-connector-java-5.1.47-bin.jar |
core-site.xml参数配置详情
官方文档:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml
core-default.xml与core-site.xml的功能是一样的,如果在core-site.xml里没有配置的属性,则会自动会获取core-default.xml里的相同属性的值
属性 | 值 | 说明 |
---|---|---|
fs.default.name | hdfs://???? | 定义master的URI和端口 |
hadoop.tmp.dir | /???? | 临时文件夹,指定后需将使用到的所有子级文件夹都要手动创建出来,否则无法正常启动服务。 |
hdfs-site.xml参数配置详情
属性 | 值 | 说明 |
---|---|---|
dfs.replication | ??? | hdfs数据块的复制份数,默认3,理论上份数越多跑数速度越快,但是需要的存储空间也更多。 |
dfs.namenode.name.dir | file:/usr/hadoop/hadoop-2.7.3/hdfs/???? | NN所使用的元数据保存 |
dfs.datanode.data.dir | file:/usr/hadoop/hadoop-2.7.3/hdfs/???? | 真正的datanode数据保存路径,可以写多块硬盘,逗号分隔 |
yarn-site.xml参数配置详情
属性 | 值 | 说明 |
---|---|---|
yarn.resourcemanager.admin.address | ${yarn.resourcemanager.hostname}:18141 | ResourceManager 对管理员暴露的访问地址。管理员通过该地址向RM发送管理命令等。 |
yarn.nodemanager.aux-services | mapreduce_shuffle | NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序 |
mapred-site.xml参数配置详情
属性 | 值 | 说明 |
---|---|---|
mapreduce.framework.name | yarn | 指定MR运行框架,默认为local |
二、构建数据仓库(30 / 30分)
1.比赛框架
本次比赛为分布式集群搭建,共三台节点,其中master作为主节点,slave1、salve2为从节点;
2.比赛内容
- 基础配置:修改主机名、主机映射、时区修改、时间同步、定时任务、免密访问;
- JDK安装:环境变量;
- Zookeeper部署:环境变量、配置文件zoo.cfg、myid;
- Hadoop部署:环境变量、配置文件修改、设置节点文件、格式化、开启集群;
- Hive部署:Mysql数据库配置、服务器端配置、客户端配置。
3.版本说明
内置安装/依赖包(/usr/package) | 已安装服务 | 系统版本 |
---|---|---|
hadoop-2.7.3.tar.gz | ntp | CentOS Linux release 7.3.1611 (Core) |
zookeeper-3.4.10.tar.gz | mysql-community-server | |
apache-hive-2.1.1-bin.tar.gz | ||
jdk-8u171-linux-x64.tar.gz | ||
mysql-connector-java-5.1.47-bin.jar |
4.数据仓库架构说明
集群中使用远程模式,使用外部数据库MySQL用于存储元数据,使用client/thrift server的连接方式进行访问。其中slave2节mysql数据库,slave1作为hive服务器端,master作为hive客户端。
以上是关于“红亚杯”-大数据环境搭建与数据采集技能线上专题赛赛题的主要内容,如果未能解决你的问题,请参考以下文章
数字中心荣获“厦门大数据安全开放创新应用大赛·交通专题”算法赛一等奖
2021年安徽省大数据与人工智能应用竞赛人工智能(网络赛)-本科组赛题
2021年全国职业院校技能大赛 “大数据技术与应用”—模拟赛题