使用 Apache-Spark 到 Redshift 的 MongoDB 数据管道

Posted

技术标签:

【中文标题】使用 Apache-Spark 到 Redshift 的 MongoDB 数据管道【英文标题】:MongoDB data pipeline to Redshift using Apache-Spark 【发布时间】:2017-09-07 17:59:29 【问题描述】:

由于我的雇主大举使用 MongoDB、Redshift 和 Spark。我正在尝试积极主动地使用这些技术。您能否向我推荐任何有助于执行此任务的资源 - “使用 Apache Spark 创建数据管道,将数据从 MongoDB 移动到 RedShift”

到目前为止,我已经能够下载 MongoDB 的开发版本并创建一个测试 Redshift 实例。我该如何着手设置其余的过程并弄湿我的脚。

我知道要使用 Apache Spark 创建数据管道,必须使用 Scala、Python 或 Java 编写代码。我对 SQL 有深入的了解,因此请随意建议我可以轻松学习 Scala、Python 或 Java 中的哪种语言。

我的背景是数据仓库、传统 ETL(Informatica、Datastage 等)。

提前谢谢你:)

【问题讨论】:

【参考方案1】:

一个非常好的方法可能是使用 AWS 数据迁移服务 http://docs.aws.amazon.com/dms/latest/userguide/CHAP_Source.MongoDB.html

您可以将 mongodb 指定为源端点,将 redshift 指定为目标端点

【讨论】:

以上是关于使用 Apache-Spark 到 Redshift 的 MongoDB 数据管道的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Apache-Spark 2.x 中使用 java 进行增量序列

通过 Apache-Spark 从 AWS S3 加载数据

如何获取有关当前执行程序 Apache-Spark 的元数据?

Apache-Spark 的 GBT 和 sklearn 的 AUC 差异

为啥 Apache-Spark - Python 在本地比 pandas 慢?

Pandas 与 MLLib 的协方差计算的确切 Apache-Spark NA 处理差异是啥?