在 ec2 上托管的 apache spark 中使用 AWS EMRFS
Posted
技术标签:
【中文标题】在 ec2 上托管的 apache spark 中使用 AWS EMRFS【英文标题】:Using AWS EMRFS in apache spark hosted on ec2 【发布时间】:2018-12-24 14:53:09 【问题描述】:如果我在 ec2(或 kubernetes)上运行 spark,我可以使用 s3/emrfs 代替 hdfs 吗?这个生产准备好了吗?它是否使用并行性来读取/处理来自 s3 的数据?
提前致谢
【问题讨论】:
【参考方案1】:不,EMRFS 仅适用于 EMR,这是使 S3 看起来像 HDFS 的一部分的简单方法。对于 EC2,您连接到 S3,但这不如使用 EMR 容易。 S3 与 EC2 没有紧密耦合。是的,应用了并行性,但不是根据 MR 数据位置、工作者和数据节点。
【讨论】:
请查看 spark 网站上的以下链接 - spark.apache.org/docs/2.3.0/cloud-integration.html 不确定您想要暗示什么,但我正在构建一个云解决方案,我们谈到了我提到的几点。 EMR 确实使用 EC2,这一点很清楚。【参考方案2】:EMR 使用具有专有功能“emrfs”的闭源 S3 连接器。您无法查看源代码,无法获得其他任何人的支持并且除非您运行 emr,否则您无法使用它。对于独立应用:s3a 连接器很棒,但不能完全替代 HDFS
【讨论】:
以上是关于在 ec2 上托管的 apache spark 中使用 AWS EMRFS的主要内容,如果未能解决你的问题,请参考以下文章
如何为 AWS EC2 上托管的 Parse 服务器获取 APP_ID 和 CLIENT_KEY
使用NGINX在端口80上为使用虚拟主机的Amazon EC2上托管的域的node.js应用程序提供HTTP流量
没有显示 Apache 和 mod_wsgi 的 Ubuntu VM 上托管的 Django 应用程序