从头开始构建数据湖

Posted

技术标签:

【中文标题】从头开始构建数据湖【英文标题】:Building Data Lake from scratch 【发布时间】:2019-02-27 02:48:44 【问题描述】:

我正在尝试从头开始构建“数据湖”。我了解数据湖的工作原理及其用途;到处都是互联网。但是当问题出现时,如何从头开始构建一个没有来源。我想了解是否:

数据仓库 + Hadoop = 数据湖

我知道如何运行 Hadoop 并将数据引入 Hadoop。 我想在本地数据湖上构建一个样本来演示我的经理。任何帮助表示赞赏。

【问题讨论】:

你成功构建它了吗? ,我正在尝试构建一个,但我不知道从哪里开始,我安装了 Hadoop,但不知道如何实现数据湖 【参考方案1】:

您必须拥有结构化和非结构化数据才能将 Hadoop 集群变成数据湖。

因此,您必须有一些 ETL 管道来获取非结构化数据并将其转换为结构化数据。产品评论或类似的东西会提供你的非结构化数据。将其转换为 Hive 可用的东西(例如)将为您提供结构化数据。

我会查看 https://opendata.stackexchange.com/ 以获取您的数据,并查看 google Hadoop ETL 以获取有关如何清理数据的想法。如何编写管道(Spark 或 MapReduce)取决于您。

【讨论】:

数据湖只是以 Hadoop 方式构建的数据仓库吗? 我有结构化数据,我有非结构化数据。我已经安装了 hadoop 和 hive。我可以将数据放入hadoop。我将有火花来查询我的数据和其他一些分析工具。是这样吗?这是我的数据湖吗? 差不多。它可能不是一个有用的数据湖(因为在您的查询中可能没有任何商业价值)但就是这样。【参考方案2】:

您可以使用 AWS 服务构建数据湖。一种简单的方法是使用 AWS CloudFormation 模板来配置解决方案,包括 AWS 服务,例如用于无限数据存储的 Amazon S3、用于身份验证的 Amazon Cognito、用于强大搜索功能的 Amazon Elasticsearch、用于微服务的 AWS Lambda、用于数据传输,以及用于数据分析的 Amazon Athena。下图展示了使用 AWS 服务在 AWS 上构建数据湖的完整架构。

参考这篇文章:https://medium.com/@pmahmoudzadeh/building-a-data-lake-on-aws-3f02f66a079e

【讨论】:

以上是关于从头开始构建数据湖的主要内容,如果未能解决你的问题,请参考以下文章

如何用好云原生数据湖?

详解数据湖:概念特征与架构

数据湖构建与计算

数据湖构建与计算

数据湖构建—如何构建湖上统一的数据权限

Flink + Iceberg + 对象存储,构建数据湖方案