使用 AWS EMR 的 ETL
Posted
技术标签:
【中文标题】使用 AWS EMR 的 ETL【英文标题】:ETL using AWS EMR 【发布时间】:2020-06-19 04:36:39 【问题描述】:我是 AWS EMR 的新手,我必须在 EMR 上使用 spark 执行以下任务:-
第 1 步:- 从 s3 中选择 xml 文件
第 2 步:- 对 xml 数据执行转换
第 3 步:- 将结果存储到 Elasticsearch 或任何 RDBMS 中
我需要如何执行这些步骤的程序
【问题讨论】:
【参考方案1】:您可以为此类作业创建一个临时集群... 选择步骤执行并在作业结束时启用终止集群。
但如果您的用例只是从 s3 读取数据并加载到弹性搜索中,我建议您使用 AWS Glue,因为它是无服务器的,您无需担心集群管理,您可以随用随付。
【讨论】:
我使用的xml数据对Glue不友好.. xml 数据我使用的是 xml 和 html,所以我不能在 Glue crawler 中为 schema 指定特定的 rowtag 我说的是胶水作业,但您可以随时创建 EMR 瞬态集群。以上是关于使用 AWS EMR 的 ETL的主要内容,如果未能解决你的问题,请参考以下文章
Amazon Redshift 中的 ETL 与 ELT [关闭]
如何使用 AWS Lambda 在 AWS EMR 上运行 PySpark