使用 Dynamodb 数据源构建 s3 数据湖
Posted
技术标签:
【中文标题】使用 Dynamodb 数据源构建 s3 数据湖【英文标题】:Build s3 Datalake Using Dynamo DB data source 【发布时间】:2022-01-19 16:29:22 【问题描述】:我是一名使用 AWS 的数据工程师,我们想构建一个数据管道,以便在 QuickSigth 上可视化我们的 Dynmaodb 数据,如您所知,无法直接将 dynamo 连接到 Quick...您必须经过S3.
S3 将是我们的数据湖,问题是日期更新频繁(例如列名可以更改/客户状态可以演变..)
所以我正在寻找一个批处理解决方案,以便始终从我的 s3 数据湖上的 dynamo 获取最新数据并在 quicksigth 中将其可视化。
谢谢你
【问题讨论】:
【参考方案1】:您可以在控制台中的 DynamoDB 中访问您的表,并在 Streams and Exports
选项卡下将数据导出到 S3。来自 AWS 的 This blog post 解释了您的需求。
您也可以尝试使用this approach with Athena 代替 S3。
【讨论】:
以上是关于使用 Dynamodb 数据源构建 s3 数据湖的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 EMR 上的 HiveQL 将 DynamoDB 上的 Map 数据类型列导出到具有 JSON 数据类型的 S3?