使用 AWS EMR 的 ETL

Posted

技术标签:

【中文标题】使用 AWS EMR 的 ETL【英文标题】:ETL using AWS EMR 【发布时间】:2020-06-19 04:36:39 【问题描述】:

我是 AWS EMR 的新手,我必须在 EMR 上使用 spark 执行以下任务:-

第 1 步:- 从 s3 中选择 xml 文件

第 2 步:- 对 xml 数据执行转换

第 3 步:- 将结果存储到 Elasticsearch 或任何 RDBMS 中

我需要如何执行这些步骤的程序

【问题讨论】:

【参考方案1】:

您可以为此类作业创建一个临时集群... 选择步骤执行并在作业结束时启用终止集群。

但如果您的用例只是从 s3 读取数据并加载到弹性搜索中,我建议您使用 AWS Glue,因为它是无服务器的,您无需担心集群管理,您可以随用随付。

【讨论】:

我使用的xml数据对Glue不友好.. xml 数据我使用的是 xml 和 html,所以我不能在 Glue crawler 中为 schema 指定特定的 rowtag 我说的是胶水作业,但您可以随时创建 EMR 瞬态集群。

以上是关于使用 AWS EMR 的 ETL的主要内容,如果未能解决你的问题,请参考以下文章

我们可以将AWS Glue视为EMR的替代品吗?

针对 AWS EMR 的 AWS Glue 定价

Amazon Redshift 中的 ETL 与 ELT [关闭]

如何使用 AWS Lambda 在 AWS EMR 上运行 PySpark

AWS 使用 boto3 自动缩放创建 EMR 无法正常工作

打开/关闭 AWS EMR 集群