大数据和数据湖之间的比较,异同

Posted

技术标签:

【中文标题】大数据和数据湖之间的比较,异同【英文标题】:Comparison between Big Data and Data Lakes , difference and similarities [duplicate] 【发布时间】:2019-01-03 10:36:13 【问题描述】:

谁能告诉我大数据和数据湖之间的异同。

在任何地方都找不到满意的答案。

【问题讨论】:

关于***的问题需要非常具体。像这样的宽泛问题通常会被否决并关闭。 【参考方案1】:

大数据是一个以非常不同的方式使用的术语,甚至可以称之为流行语。通常,它被用作数字技术、digitization、industry 4.0 以及与数字化转型相关的许多主题的统称。

在不太一般的解释中,大数据只是指复杂的大型数据集。术语“大”指的是三个维度(参见Wikipedia on Big Data)

    volume,即数据集的大小 生成数据量的速度 各种数据类型和来源

数据湖指的是一种存储大数据的方法。存储数据的其他可能性是传统的数据库,一方面也称为 关系数据库管理系统 (RDBMS),另一方面是 数据仓库,例如 @987654324 @

【讨论】:

【参考方案2】:

大数据和数据湖是两个不同的东西。 数据湖是一个概念,您可以在其中存储所有数据并使用不同的机制轻松访问。数据湖可以在 s3 或 redshift 或任何其他存储平台上维护。 大数据是用于处理大量数据的术语。它主要参考 Hadoop、Spark 等大数据解决方案。

【讨论】:

【参考方案3】:

我认为,我们无法比较和区分这两个术语,因为数据湖是大数据的同义词。数据湖=企业数据+非结构化数据+半结构化数据。

另一方面,它是数据存储库,您可以存储任何类型的数据并用于分析目的。大多数数据将存储在 Hadoop 文件系统 (HDFS) 中,其中“大数据”下涉及存储和其他一些处理技术。

【讨论】:

@Shambhu_Nath:请您详细说明“数据湖”和“大数据”在多大程度上是同义词?

以上是关于大数据和数据湖之间的比较,异同的主要内容,如果未能解决你的问题,请参考以下文章

数据湖vs数据仓库vs数据集市

数据湖架构及概念简介

数据湖-hudi概述

数据库 vs 数据集市 vs 数据仓库 vs 数据湖

数据仓库与数据湖的区别

漫说数据湖——如何建湖?如何做数据ETL?为什么大数据需要数据湖?