HDFS的底层原理

Posted 大数据一ITSTAR

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HDFS的底层原理相关的知识,希望对你有一定的参考价值。


RPC概述 

RPC(Remote Procedure Call Protocol)—远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC采用客户机/服务器模式,其框架图如图所示。请求程序就是一个客户机,而服务提供程序就是一个服务器。

首先,客户机调用进程发送一个有进程参数的调用信息到服务进程,然后等待应答信息。在服务器端,进程保持睡眠状态直到调用信息的到达为止。当一个调用信息到达,服务器获得进程参数,计算结果,发送答复信息,然后等待下一个调用信息,最后,客户端调用进程接收答复信息,获得进程结果,然后调用执行继续进行。


一个典型的RPC框架包括以下几个部分:

通信模块

两个相互协作的通信模块实现请求-应答协议。他们在客户机和服务器之间传递请求和应答消息,一般不会对数据报进行任何处理。

要通过RPC服务进行通信,服务的提供方必须实现某个接口,以下分别列出了与HDFS和MapReduce相关的接口,这些接口均继承自VersionedProtocol接口。

HDFS相关的协议:

内部类

功能

ClientDatanodeProtocol

client和datanode间的协议接口,用于数据块恢复

ClientProtocol

client与Namenode交互的接口,所有控制流的请求均在这里,如:创建文件、删除文件等

DatanodeProtocol

Datanode与Namenode交互的接口,如心跳、块报告等

NamenodeProtocol

SecondaryNode与Namenode交互的接口

这四者在HDFS的结构图上的位置如图所示:

 

MapReduce相关的协议:

内部类

功能

InterDatanodeProtocol

Datanode内部交互的接口,用来更新block的元数据

InnerTrackerProtocol

TaskTracker与JobTracker交互的接口,功能与DatanodeProtocol相似

JobSubmissionProtocol

JobClient与JobTracker交互的接口,用来提交Job、获得Job等与Job相关的操作

TaskUmbilicalProtocol

Task中子进程与母进程交互的接口,子进程即map、reduce等操作,母进程即TaskTracker,该接口可回报子进程的运行状态。

这四者在MapReduce的结构图上的位置如图所示:


Stub模块

客户端和服务端都包含Stub程序,可将之看作代理程序。它使得远程调用表现的跟本地调用一样,对客户程序完成透明。


调度程序

调度程序接受来自通信模块的请求信息,并根据其中的标识选择一个Stub程序处理。通常当客户端并发请求量较大时,会采用线程池提高处理效率。


客户程序/服务过程

请求的发出者和处理者。在分布式环境下,需要考虑网络通信,这不得不增加通信模块和Stub程序以保证函数调用的透明性。

一个Hadoop RPC使用方法可以分为以下几个步骤。

步骤一 定义RPC协议。RPC协议是客户端和服务器端之间的通信接口,它定义了服务器对外提供的服务接口。

步骤二 实现RPC协议。 Hadoop RPC通常是一个Java接口,用户需要实现该接口。

步骤三 构造并启动RPC Server。直接使用静态方法getServer()构造一个RPC Server,并调用start()方法启动该Server。

步骤四 构造RPC Client,并发送RPC请求。使用静态方法getProxy()构造客户端代理对象,直接通过代理对象调用远程端的方法。

下面是对应的代码示例规范。

HDFS的底层通信原理采用的是:RPC和动态代理对象Proxy


总结:什么是RPC?

Remote Procedure Call,远程过程调用。也就是说,调用过程代码并不是在调用者本地运行,而是要实现调用者与被调用者二地之间的连接与通信。

RPC的基本通信模型是基于Client/Server进程间相互通信模型的一种同步通信形式;它对Client提供了远程服务的过程抽象,其底层消息传递操作对Client是透明的。

RPC中,Client即是请求服务的调用者(Caller),而Server则是执行Client的请求而被调用的程序 (Callee)。


以上是关于HDFS的底层原理的主要内容,如果未能解决你的问题,请参考以下文章

HDFS的底层原理

HDFS 底层交互原理,看这篇就够了!

HDFS(二) 底层通信原理——RPC 及 动态代理

HDFS中的文件租约Strom中的LRUMap底层竟然是......

HDFS-架构原理

HBase 底层原理详解(深度好文,建议收藏)