在 ec2 上托管的 apache spark 中使用 AWS EMRFS

Posted

技术标签:

【中文标题】在 ec2 上托管的 apache spark 中使用 AWS EMRFS【英文标题】:Using AWS EMRFS in apache spark hosted on ec2 【发布时间】:2018-12-24 14:53:09 【问题描述】:

如果我在 ec2(或 kubernetes)上运行 spark,我可以使用 s3/emrfs 代替 hdfs 吗?这个生产准备好了吗?它是否使用并行性来读取/处理来自 s3 的数据?

提前致谢

【问题讨论】:

【参考方案1】:

不,EMRFS 仅适用于 EMR,这是使 S3 看起来像 HDFS 的一部分的简单方法。对于 EC2,您连接到 S3,但这不如使用 EMR 容易。 S3 与 EC2 没有紧密耦合。是的,应用了并行性,但不是根据 MR 数据位置、工作者和数据节点。

【讨论】:

请查看 spark 网站上的以下链接 - spark.apache.org/docs/2.3.0/cloud-integration.html 不确定您想要暗示什么,但我正在构建一个云解决方案,我们谈到了我提到的几点。 EMR 确实使用 EC2,这一点很清楚。【参考方案2】:

EMR 使用具有专有功能“emrfs”的闭源 S3 连接器。您无法查看源代码,无法获得其他任何人的支持并且除非您运行 emr,否则您无法使用它。对于独立应用:s3a 连接器很棒,但不能完全替代 HDFS

【讨论】:

以上是关于在 ec2 上托管的 apache spark 中使用 AWS EMRFS的主要内容,如果未能解决你的问题,请参考以下文章

使用我的R管道工程API在EC2实例上托管的连接问题

如何为 AWS EC2 上托管的 Parse 服务器获取 APP_ID 和 CLIENT_KEY

使用NGINX在端口80上为使用虚拟主机的Amazon EC2上托管的域的node.js应用程序提供HTTP流量

没有显示 Apache 和 mod_wsgi 的 Ubuntu VM 上托管的 Django 应用程序

如何安全地将 EC2 托管的 Shiny 应用程序集成到 asp.net 项目中

通过spark-submit,本地测试SparkStreaming