HDFS,Hadoop中的低延迟数据访问
Posted
技术标签:
【中文标题】HDFS,Hadoop中的低延迟数据访问【英文标题】:Low Latency data access in HDFS ,Hadoop 【发布时间】:2017-09-22 05:47:46 【问题描述】:我正在阅读有关大数据和 Hadoop 的教程,我在 HDFS 上找到了这两点
流式数据访问:读取整个数据集的时间比读取第一个数据集的延迟更重要。 HDFS 建立在一次写入和多次读取的模式之上。
&
低延迟数据访问:访问第一个数据所需时间非常短的应用程序不应使用 HDFS,因为它更重视整个数据而不是获取第一个记录的时间。
我很困惑,因为第一个说读取整个数据集的时间更重要,第二个说...不应该使用 HDFS,因为它重视整个数据
我不明白预期是什么?我是 Hadoop 新手。
【问题讨论】:
【参考方案1】:流式数据访问:
HDFS 基于“一次写入,多次读取”的原则。 主要关注点是以尽可能快的方式读取完整的数据集,这比花时间从数据集中获取单个记录更重要。
根据 Hadoop:权威指南
MapReduce 本质上是一个批处理系统,不适合交互式分析。您无法在几秒钟或更短的时间内运行查询并获得结果。查询通常需要几分钟或更长时间,因此最适合离线使用,因为没有人坐在处理循环中等待结果。
MapReduce 非常适合需要以批处理方式分析整个数据集的问题。 RDBMS 适用于点查询或更新,其中数据集已被索引以提供相对少量数据的低延迟检索和更新时间。 MapReduce 适用于数据写入一次多次读取的应用程序,而关系数据库则适用于不断更新的数据集。
延迟:请参考下面这个What is low latency access of data?
【讨论】:
以上是关于HDFS,Hadoop中的低延迟数据访问的主要内容,如果未能解决你的问题,请参考以下文章