使用 Dynamodb 数据源构建 s3 数据湖

Posted

技术标签:

【中文标题】使用 Dynamodb 数据源构建 s3 数据湖【英文标题】:Build s3 Datalake Using Dynamo DB data source 【发布时间】:2022-01-19 16:29:22 【问题描述】:

我是一名使用 AWS 的数据工程师,我们想构建一个数据管道,以便在 QuickSigth 上可视化我们的 Dynmaodb 数据,如您所知,无法直接将 dynamo 连接到 Quick...您必须经过S3.

S3 将是我们的数据湖,问题是日期更新频繁(例如列名可以更改/客户状态可以演变..)

所以我正在寻找一个批处理解决方案,以便始终从我的 s3 数据湖上的 dynamo 获取最新数据并在 quicksigth 中将其可视化。

谢谢你

【问题讨论】:

【参考方案1】:

您可以在控制台中的 DynamoDB 中访问您的表,并在 Streams and Exports 选项卡下将数据导出到 S3。来自 AWS 的 This blog post 解释了您的需求。

您也可以尝试使用this approach with Athena 代替 S3。

【讨论】:

以上是关于使用 Dynamodb 数据源构建 s3 数据湖的主要内容,如果未能解决你的问题,请参考以下文章

Aws Dynamodb数据导出到S3

如何使用 EMR 上的 HiveQL 将 DynamoDB 上的 Map 数据类型列导出到具有 JSON 数据类型的 S3?

从S3中导入数据到Dynamodb

将dynamoDB表复制到另一个没有S3的aws帐户

从 dynamodb 复制到 s3

AWS Data管道从S3到DynamoDB的CSV数据