大数据-学习实践-5企业级解决方案

Posted 2023-03-30 yxyibb

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据-学习实践-5企业级解决方案相关的知识，希望对你有一定的参考价值。

大数据-学习实践-5企业级解决方案

(大数据系列)

文章目录

大数据-学习实践-5企业级解决方案

1知识点

小文件问题
小文件存储计算
数据倾斜
YARN
Hadoop官方

2具体内容

2.1小文件问题

MapReduce框架针对大数据文件设计，小文件处理效率低下，消耗内存资源

每个小文件在NameNode都会占用150字节的内存，每个小文件都是一个block
一个block产生一个inputsplit，产生一个Map任务
同时启动多个map任务消耗性能，影响MapReduce执行效率

2.1.1 SequenceFile

SequenceFile是二进制文件，直接将<k,v>对序列化到文件
对小文件进行文件合并：文件名为k，文件内容为v，序列化到大文件
但需要合并文件的过程，文件大且合并后的文件不便查看，需要遍历查看每个小文件
读、写试验
SequenceFile在hdfs上合并为一个文件

2.1.2 MapFile

排序后的MapFile，包括index和data
index为文件的数据索引，记录每个record的key值，并保存该record在文件中的偏移位
访问MapFile时，索引文件被加载到内存，通过索引映射关系快速定位到指定Record所在文件位置
相对SequenceFile而言，MapFile的检索效率是高效的，缺点是会消耗一部分内存来存储index数据
MapFile在hdfs上包括2个文件，index和data

2.1.3 小文件存储计算

使用SequenceFile实现小文件存储计算

java开发，生成SequenceFile；（人工将一堆小文件处理成一个较大文件，进行MapReduce计算）
开发MapReduce（借助底层），读取Sequencefile，进行分布式计算

2.2数据倾斜

一般不对Map任务进行改动，但为了提高效率，可增加Reduce任务，需要对数据分区
job.getPartitionerClass()实现分区
当MapReduce程序执行时，大部分Reduce节点执行完毕，但有一个或几个Reduce节点运行很慢，导致整个程序处理时间变长，表现为Reduce节点卡着不动
- 倾斜不严重，可增加Reduce任务个数

job.setNumReduceTasks(Integer.parseInt(args[2]));

倾斜严重，要把倾斜数据打散（抽样确定哪一类，打散）

String key = words[0];
if ("5".equals(key)) 
 //把倾斜的key打散，分成10份
 key = "5" + "_" + random.nextInt(10);

2.3 YARN

2.3.1 YARN架构

集群资源的管理和调度，支持主从架构，主节点最多2个，从节点可多个
ResourceManager：主节点负责集群资源分配和管理
NodeManager：从节点负责当前机器资源管理
YARN主要管理内存和CPU两种资源
NodeManager启动向ResourceManager注册，注册信息包含该节点可分配的CPU和内存总量
默认单节点：（yarn-site.xml文件中设置）
- yarn.nodemanager.resourece.memory-mb：单节点可分配物理内存总量，默认8Mb*1024,8G
- yarn.nodemanager.resource.cpu-vcores：单节点可分配的虚拟CPU个数，默认是8

2.3.2 YARN调度器

FIFO Scheduler 先进先出
Capacity Scheduler FIFO Scheduler 多队列版本（常用）
Fair Scheduler 多队列，多用户共享资源

2.3.2 YARN多资源队列配置和使用

增加online队列和offline队列
- 修改 capacity-scheduler.xml 文件，并同步其他节点

<property>
 <name>yarn.scheduler.capacity.root.queues</name>
 <value>default,online,offline</value>
 <description>
   The queues at the this level (root is the root queue).
 </description>
</property>
<property>
 <name>yarn.scheduler.capacity.root.default.capacity</name>
 <value>70</value>
 <description>Default queue target capacity.</description>
</property>
<property>
 <name>yarn.scheduler.capacity.root.online.capacity</name>
 <value>10</value>
 <description>Online queue target capacity.</description>
</property>
<property>
 <name>yarn.scheduler.capacity.root.offline.capacity</name>
 <value>20</value>
 <description>Offline queue target capacity.</description>
</property>
<property>
 <name>yarn.scheduler.capacity.root.default.maximum-capacity</name>
 <value>70</value>
 <description>
   The maximum capacity of the default queue.
 </description>
</property>
<property>
 <name>yarn.scheduler.capacity.root.online.maximum-capacity</name>
 <value>10</value>
 <description>
   The maximum capacity of the online queue.
 </description>
</property>
<property>
 <name>yarn.scheduler.capacity.root.offline.maximum-capacity</name>
 <value>20</value>
 <description>
   The maximum capacity of the offline queue.
 </description>
</property>

- 重新启动

stop-all.sh
start-all.sh

向offline队列提交MR任务
- online队列里面运行实时任务
- offline队列里面运行离线任务

#解析命令行通过-D传递参数，添加至conf；也可修改java程序解析各参数
String[] remainingArgs = new GenericOptionsParser(conf,args).getRemainingArgs();
Job job = Job.getInstance(conf);
job.setJarByClass(WordCountJobQueue.class);#必须有，否则集群执行时找不到wordCountJob这个类

#重新编译上传执行
hadoop jar db_hadoop-1.0-SNAPSHOT-jar-with-dependencies.jar com.imooc.mr.WordCountJobQueue -Dmapreduce.job.queue=offline /test/hello.txt /outqueue

2.4Hadoop官方文档

官方文档
在CDH中的使用
在HDP中的使用
-（1080端口） Ambari组件，提供web界面

2.5总结

MapReduce
- 原理
- 计算过程
- 执行步骤
- wordcount案例
- 日志查看：开启YARN日志聚合，启动historyServer进程
- 程序扩展：去掉Reduce
- Shuffle过程
序列化
- Writable实现类
- 特点
源码分析
- InputFormat
- OutputFormat
性能优化
- 小文件
- 数据倾斜
YARN
- 资源管理：内存+CPU
- 调度器：常用CapacityScheduler

3待补充

无

4Q&A

无

5code

无

6参考

大数据课程资料

零基础学习云计算及大数据DBA集群架构师企业级运维技术及实践项目2015年1月27日周三

Nginx 基于 ip 的虚拟主机配置
{
#serverb
(1)/etc/nginx/conf.d/*
[[email protected] conf.d]# vim ip.conf
server {
        listen  192.168.1.88:80;
        root    88.com;
        index   index.html;
  }
server {
        listen  192.168.1.87:80;
        root    87.com;
        index   index.html;
  }
[[email protected] ~]# ifconfig eth1:0 192.168.1.88
[[email protected] ~]# ifconfig eth1:1 192.168.1.87
[[email protected] ~]# mkdir /usr/local/nginx/88.com
[[email protected] ~]# echo ‘this is 88.com‘ > /usr/local/nginx/88.com/index.html
[[email protected] ~]# mkdir /usr/local/nginx/87.com
[[email protected] ~]# echo ‘this is 87.com‘ > /usr/local/nginx/87.com/index.html




 
}

Nginx 基于端口的虚拟主机配置
{
server {
    listen 80;
    root 80.com;
}
server {
    listen 8080;
    root 8080.com;
}
[[email protected] ~]# mkdir /usr/local/nginx/80.com
[[email protected] ~]# mkdir /usr/local/nginx/8080.com
[[email protected] ~]# echo ‘this is 80.com‘ > /usr/local/nginx/80.com/index.html
[[email protected] ~]# echo ‘this is 8080.com‘ > /usr/local/nginx/8080.com/index.html
}

基于名称的虚拟主机配置详解
{
1.
www.dabao.com
www.booboo.com

[[email protected] conf.d]# pwd
/etc/nginx/conf.d
[[email protected] conf.d]# cp default.conf www.booboo.com.conf
[[email protected] conf.d]# cp default.conf www.dabao.com.conf
[[email protected] conf.d]# vim www.booboo.com.conf
server {
    listen       80;
    server_name  www.booboo.com;


    location / {
        root   /usr/share/nginx/booboo.com;
        index  index.html index.htm;
    }

}
[[email protected] conf.d]# vim www.dabao.com.conf
server {
       listen       80;
        server_name  www.dabao.com;
        root   /usr/share/nginx/dabao.com;
        index  index.html index.htm;
    }
[[email protected] conf.d]# mkdir /usr/share/nginx/dabao.com
[[email protected] conf.d]# mkdir /usr/share/nginx/booboo.com
[[email protected] conf.d]# echo hi,booboo > /usr/share/nginx/booboo.com/index.html
[[email protected] conf.d]# echo hi,dabao> /usr/share/nginx/dabao.com/index.html
#重启 nginx 服务
[[email protected] conf.d]# systemctl restart nginx.service
workstation 客户端测试
[[email protected] ~]# echo 172.25.15.10 www.dabao.com >> /etc/hosts
[[email protected] ~]# echo 172.25.15.10 www.booboo.com >> /etc/hosts
2.server_name
mail.dabao.com
news.dabao.com
www.news.dabao.com
www.sports.dabao.com
[[email protected] conf.d]# vim www.booboo.com.conf
server {
    listen       80;
    server_name  ~www\..*\.booboo\.com;


    location / {
        root   /usr/share/nginx/booboo.com;
        index  index.html index.htm;
    }

}
[[email protected] conf.d]# vim www.dabao.com.conf
server {
       listen       80;
        server_name  *.dabao.com;
        root   /usr/share/nginx/dabao.com;
        index  index.html index.htm;
    }

3.location
www.booboo.com/news.html

[[email protected] conf.d]# cat www.booboo.com.conf
server {
    listen       80;
    server_name  ~www.*\.booboo\.com;


    location / {
        root   /usr/share/nginx/booboo.com;
        index  index.html index.htm;
    }
    location ~/news.html{
        root    /usr/share/nginx/dabao.com;
        index   index.html index.htm;
        }
}
4.80 default
[[email protected] conf.d]# cp default.conf err.com.conf
[[email protected] conf.d]# vim err.com.conf
server {
listen 80 default;
#在监听端口号后边添加 default 字段,即代表该虚拟主机为默认虚拟主机
location / {
root /usr/share/nginx/err.com;
index index.html index.htm;
}
#创建该虚拟主机网页文件存放目录和首页文件,一般首页文件中即为报错信息
[[email protected] conf.d]# mkdir /usr/share/nginx/err.com
[[email protected] conf.d]# echo cannot found this virtual host name > /usr/share/nginx/err.com/index.html
#重启 nginx 服务
[[email protected] conf.d]# systemctl restart nginx.service
(4)workstation 客户端测试

}

以上是关于大数据-学习实践-5企业级解决方案的主要内容，如果未能解决你的问题，请参考以下文章

零基础学习云计算及大数据DBA集群架构师企业级运维技术及实践项目2015年1月21日周四

零基础学习云计算及大数据DBA集群架构师企业级运维技术及实践项目1.21-3.2

零基础学习云计算及大数据DBA集群架构师企业级运维技术及实践项目2015年1月26日周二

零基础学习云计算及大数据DBA集群架构师企业级运维技术及实践项目2015年1月29日周五

5大领先的商业智能解决方案，国产上榜！

呕血倾力总结：「大数据技术体系」学习实践导览