Docker是dotCloud公司的一个开源项目，诞生于 2013 年初，基于 Go 语言实现，并遵从Apache 2.0协议，基于容器技术的轻量级虚拟化解决方案。
Docker是容器引擎，把Linux的cgroup、namespace等容器底层技术进行封装抽象，为用户提供了创建和管理容器的便捷界面（包括命令行和API）。
Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的 Linux或Windows操作系统的机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口。

技术支柱：Namespaces、Control Groups、UnionFS

三个基本概念：

容器：类似于从模板中创建虚拟机；容器是从镜像创建的运行实例。它可以被启动、开始、停止、删除。每个容器都是相互隔离的；可以把容器看做是一个简易版的 Linux 环境（包括root用户权限、进程空间、用户空间和网络空间等）和运行在其中的应用程序。

镜像：Docker 的镜像类似虚拟机的模板，但是更轻量；一个镜像可以包含一个完整的 Linux 操作系统环境，里面仅安装了 Tomcat；镜像可以用来创建容器

仓库：仓库是集中存放镜像文件的场所；仓库注册服务器上往往存放着多个仓库，每个仓库中又包含了多个镜像，每个镜像有不同的标签；仓库分为公开仓库（Public）和私有仓库（Private）两种形式；push镜像到仓库,从仓库pull镜像

📑四、Hadoop

1、Hadoop是什么

概念：Hadoop是一种处理大数据的分布式软件框架，具有可靠、高效、扩展、低成本、兼容性等特点。Hadoop擅长于在廉价机器搭建的集群上进行海量数据(结构化与非结构化)的存储与离线处理。

2、Hadoop的核心组件有什么

三大核心组件：

HDFS（Hadoop Distribute File System）：hadoop的数据存储工具。

YARN（Yet Another Resource Negotiator,另一种资源协调者）：Hadoop 的资源管理器。

Hadoop MapReduce：分布式计算框架

3、Hadoop和Google三驾马车的关系

相当于衍生出来的HDFS、Hadoop MapReduce、HBase都是Google三驾马车的山寨版

4、Hadoop的优点

①高可靠性 ②高扩展性 ③高效性 ④高容错性 ⑤低成本

5、知道Hadoop生态系统中主要的项目名称及作用

6、Hadoop2.0中加入Yarn的原因

为了实现一个Hadoop集群的集群共享、可伸缩性和可靠性。

7、Hadoop的三种安装模式

单机模式：只在一台机器上运行，存储采用本地文件系统，没有采用分布式文件系统HDFS；

伪分布式模式：存储采用分布式文件系统HDFS，但是，HDFS的名称节点和数据节点都在同一台机器上；

分布式模式：存储采用分布式文件系统HDFS，而且，HDFS的名称节点和数据节点位于不同机器上。

8、Hadoop集群配置的步骤

1、选定一台机器作为 Master；

2、在Master节点上创建hadoop用户、安装SSH服务端、安装Java环境；

3、在Master节点上安装Hadoop，并完成配置；

4、在其他Slave节点上创建hadoop用户、安装SSH服务端、安装Java环境；

5、将Master节点上的“/usr/local/hadoop”目录复制到其他Slave节点；

6、在Master节点上开启Hadoop；

10、Linux中最基本的shell命令：如cd、cat、rm、cp、mv、source、vim….

cd：打开目录

cat：查看文件内容

rm：删除

cp：复制文件

mv：移动文件，相当于剪切

source：读取并执行文件中的命令

vim：编辑文本

📚五、HDFS

1、GFS是什么、HDFS是什么

GFS：Google文件系统（GFS）Google文件系统是一个可扩展的分布式文件系统，用于对大量数据进行访问的大型、分布式应用。GFS是一种面向不可信服务器节点而设计的文件系统。

HDFS：Hadoop的文件系统称为HDFS（Hadoop Distributed File System）。

2、HDFS的体系结构

NameNode：Master节点，在hadoop1.X中只有一个，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理客户端请求。

DataNode：Slave节点，存储实际的数据，汇报存储信息给NameNode。

Secondary NameNode：辅助NameNode，分担其工作量；定期合并fsimage和fsedits，推送给NameNode；紧急情况下，可辅助恢复NameNode，但Secondary NameNode并非NameNode的热备。

工作过程：

①用户请求创建文件的指令由Namenode进行接收。

②Namenode将存储数据的Datanode的IP返回给用户，并通知其他接收副本的Datanode，由用户直接与Datanode进行数据传送。

3、HDFS的存储原理：分块策略和副本策略

分块策略：一个文件被分成多个块，以块作为存储单位。数据块会被分别存储在不同的Datanode节点上

副本策略：HDFS对数据块典型的副本策略为3个副本，第一个副本存放在本地节点，第二个副本存放在同一个机架的另一个节点，第三个本副本存放在不同机架上的另一个节点。

4、名称节点、数据节点出错时怎么处理

HDFS设置了备份机制，把这些核心文件备份到SecondaryNameNode上。当名称节点出错时，就可以根据SecondaryNameNode中的FsImage和Editlog数据进行恢复。

名称节点会定期检查这种情况，一旦发现某个数据块的副本数量小于冗余因子，就会启动数据冗余复制，为它生成新的副本。

5、支持三种shell 命令格式：hadoop fs、Hadoop dfs、hdfs dfs

hadoop fs：适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统

hadoop dfs：只能适用于HDFS文件系统

hdfs dfs：跟hadoop dfs的命令作用一样，也只能适用于HDFS文件系统

⏳六、MapReduce

1、MapReduce是什么

分布式计算框架MapReduce是Google系统和Hadoop系统中的一项核心技术。

2、MapReduce的核心思想：

分而治之

3、MapReduce的体系结构，主从式，了解每个组件的功能

1）Client：

用户编写的MapReduce程序通过Client提交到JobTracker端。

用户可通过Client提供的一些接口查看作业运行状态。

2）JobTracker：

JobTracker负责资源监控和作业调度。

JobTracker 监控所有TaskTracker与Job的健康状况，一旦发现失败，就将相应的任务转移到其他节点。

JobTracker 会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调度器（TaskScheduler），而调度器会在资源出现空闲时，选择合适的任务去使用这些资源。

3）TaskTracker：

TaskTracker 会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作（如启动新任务、杀死任务等）。TaskTracker 使用“slot”等量划分本节点上的资源量（CPU、内存等）。一个Task 获取到一个slot 后才有机会运行，而Hadoop调度器的作用就是将各个TaskTracker上的空闲slot分配给Task使用。slot 分为Map slot 和Reduce slot 两种，分别供MapTask 和Reduce Task 使用。

4）Task：

Task 分为Map Task 和Reduce Task 两种，均由TaskTracker 启动。

4、Map函数和Reduce函数分别做什么以及MapReduce的工作过程

（切分、map、shuffle、reduce，四步大致）

Map:

InputFormat根据输入文件产生键值对，并传送到map函数中；

map输出键值对到一个没有排序的缓冲内存中；

当缓冲内存达到给定值或者map任务完成，在缓冲内存中的键值对就会被排序，然后输出到磁盘中的溢出文件；

如果有多个溢出文件，那么就会整合这些文件到一个文件中，且是排序的；

这些排序过的、在溢出文件中的键值对会等待Reducer的获取。

Reduce:

Reducer获取Mapper的记录；

shuffle相同的key被传送到同一个的Reducer中；

当有一个Mapper完成后，Reducer就开始获取相关数据，所有的溢出文件; 会被排序到一个内存缓冲区中；

当内存缓冲区满了后，就会产生溢出文件到本地磁盘；

当Reducer所有相关的数据都传输完成后，所有溢出文件就会被整合和排序；

Reducer中的reduce方法针对每个key调用一次；

Reducer的输出到HDFS。

5、MapReduce适合做哪类任务，它的优缺点

特点：

1）需要在集群条件下使用。

2）需要有相应的分布式文件系统的支持。

3）不需要特别的硬件支持。

4）假设节点的失效为正常情况。

5）适合对大数据进行处理。

6）计算向存储迁移。

7）MapReduce的计算效率会受最慢的Map任务影响

优点：

MapReduce易于编程

良好的扩展性

廉价、容错性高

适合海量数据的离线处理

缺点：

不擅长实时计算

不擅长流式计算

不擅长图计算

一文带你快速初步了解云计算与大数据

🔍一、云计算基础

1、云计算的概念、特点、关键技术

2、云计算的分类

3、云计算的部署模式

4、云计算的服务模式：IaaS、PaaS、SaaS分别是什么，具体含义要清楚

5、物联网的概念

6、物联网和云计算、大数据的关系

7、了解云计算的数据中心是什么，有什么特点

8、主流云计算平台的主要云产品名称及作用

🔦二、大数据基础

1、常用的数据计量单位及其换算

2、大数据的概念，了解大数据的来源及其多样性

3、大数据的5V特征

4、科学研究的4个范式

5、大数据对思维方式的影响

6、大数据的处理流程

7、大数据的关键技术

8、主要的大数据处理系统及代表产品

9、云计算之父、大数据之父

🔑三、虚拟化与容器技术

1、虚拟化的概念、特征

2、虚拟化的好处

3、虚拟化的分类：从计算体系结构层次上分为哪几类

4、系统虚拟化是什么

5、服务器虚拟化的关键技术哪三个

6、知道常用的虚拟化软件有哪些

7、虚拟化和容器的区别

8、Docker是什么，技术支柱是什么，容器、镜像、仓库三个基本概念