我们可以将AWS Glue视为EMR的替代品吗?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了我们可以将AWS Glue视为EMR的替代品吗?相关的知识,希望对你有一定的参考价值。

从Masters那里得到一个简单明了的问题,因为AWS Glue作为ETL工具,可以为公司提供诸多优势,例如最少或没有服务器维护,通过避免过度配置或资源不足来节省成本,除了运行spark,I我正在寻找一些澄清,如果AWS Glue可以取代EMR?

如果两者可以共存,EMR如何与AWS Glue一起发挥作用?

感谢和问候

座位

答案

根据我的理解,胶水不能替代EMR。它实际上取决于你的用例。胶水ETL有一些限制;

  • 它不支持--packages。
  • 您没有用于存储临时数据的内部存储。

使用胶水目录,您可以在Athena中查看数据,但它也有一些限制,例如无法创建表格作为选择,无法创建视图等。您可以使用EMR中的胶水数据目录来克服雅典娜的限制。

因此,当前胶水可以替代持久性元数据存储。

另一答案

到目前为止,我对Glue的经验没有提供......与EMR相比显着。此外,我在Glue中看到了一些限制,例如库,临时存储等。此外,虽然Glue位于Spark上,但它的行为与核心Spark不同;例如,读取1行CSV文件,如果缺少标题,则忽略整个文件等。

有一点我还在研究Glue是否根据查询负载动态调整集群。如果我找不到......好的,我想我会推荐我的公司更灵活地转移EMR。

另一答案

AWS Glue不允许我们配置很多内容,例如执行程序内存或驱动程序内存。它是一个完全托管的服务,5Gb作为默认驱动程序内存,5Gb作为默认执行程序内存。另一方面,AWS EMR不是完全托管的服务,需要我们进行配置。更适合有经验的工程师

以上是关于我们可以将AWS Glue视为EMR的替代品吗?的主要内容,如果未能解决你的问题,请参考以下文章

Apache Hudi在AWS Glue和AWS EMR上同步元数据的异同

Apache Hudi在AWS Glue和AWS EMR上同步元数据的异同

针对 AWS EMR 的 AWS Glue 定价

AWS EMR 与 Glue 目录,明确指定 catalogId

从 EMR 迁移到 AWS Glue 后在 Spark SQL 中找不到表

AWS Glue 可以逐行处理记录吗