HDFS,Hadoop中的低延迟数据访问

Posted

技术标签:

【中文标题】HDFS,Hadoop中的低延迟数据访问【英文标题】:Low Latency data access in HDFS ,Hadoop 【发布时间】:2017-09-22 05:47:46 【问题描述】:

我正在阅读有关大数据和 Hadoop 的教程,我在 HDFS 上找到了这两点

流式数据访问:读取整个数据集的时间比读取第一个数据集的延迟更重要。 HDFS 建立在一次写入和多次读取的模式之上。

&

低延迟数据访问:访问第一个数据所需时间非常短的应用程序不应使用 HDFS,因为它更重视整个数据而不是获取第一个记录的时间。

我很困惑,因为第一个说读取整个数据集的时间更重要,第二个说...不应该使用 HDFS,因为它重视整个数据

我不明白预期是什么?我是 Hadoop 新手。

【问题讨论】:

【参考方案1】:

流式数据访问:

HDFS 基于“一次写入,多次读取”的原则。 主要关注点是以尽可能快的方式读取完整的数据集,这比花时间从数据集中获取单个记录更重要。

根据 Hadoop:权威指南

MapReduce 本质上是一个批处理系统,不适合交互式分析。您无法在几秒钟或更短的时间内运行查询并获得结果。查询通常需要几分钟或更长时间,因此最适合离线使用,因为没有人坐在处理循环中等待结果。

MapReduce 非常适合需要以批处理方式分析整个数据集的问题。 RDBMS 适用于点查询或更新,其中数据集已被索引以提供相对少量数据的低延迟检索和更新时间。 MapReduce 适用于数据写入一次多次读取的应用程序,而关系数据库则适用于不断更新的数据集。

延迟:请参考下面这个What is low latency access of data?

【讨论】:

以上是关于HDFS,Hadoop中的低延迟数据访问的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop 学习 HDFS

hadoop都有哪些优缺点

HDFS学习总结

Mesos 上的独立 Spark 集群访问不同 Hadoop 集群中的 HDFS 数据

读《Hadoop权威指南》点滴-Hadoop分布式文件系统

HDFS知识点总结