HDFS的特点
Posted 大数据面试宝典
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HDFS的特点相关的知识,希望对你有一定的参考价值。
高容错
保存多个副本,且提供容错机制。副本丢失或宕机自动恢复,默认存3份。
系统故障是不可避免的,如何做到故障之后的数据恢复和容错处理是至关重要的。
HDFS通过多方面保证数据的可靠性,多份复制并且分布到物理位置的不同服务器上,数据校验功能、后台的连续自检数据一致性功能都为高容错提供了可能。
故障类型
节点失败(DN服务挂了)
节点没坏,网络坏了
数据块损坏(不稳定的网络传输、磁盘损坏)
故障检测机制
节点失败检测机制
数据错误检测机制
读写容错机制
读:CheckSum 校验和
写:获取一个数据块所有的DN位置,写入失败则会导致副本数量少。
适合批处理
它是通过移动计算而不是移动数据。把数据位置暴露给计算框架。
适合大数据处理
处理数据达到 GB、TB、甚至PB级别的数据。
能够处理百万规模以上的文件数量。
能够处理10000节点的规模。
简单一致性模型
HDFS 中的文件支持一次写入、多次读取,写入操作是以追加的方式添加在文件末尾,不支持多个 写入者的操作,也不支持对文件的任意位置进行修改。
流式数据访问
一次写入,多次读取,不能修改,只能追加。保证了数据的一致性。
以上是关于HDFS的特点的主要内容,如果未能解决你的问题,请参考以下文章