使用 Apache-Spark 到 Redshift 的 MongoDB 数据管道
Posted
技术标签:
【中文标题】使用 Apache-Spark 到 Redshift 的 MongoDB 数据管道【英文标题】:MongoDB data pipeline to Redshift using Apache-Spark 【发布时间】:2017-09-07 17:59:29 【问题描述】:由于我的雇主大举使用 MongoDB、Redshift 和 Spark。我正在尝试积极主动地使用这些技术。您能否向我推荐任何有助于执行此任务的资源 - “使用 Apache Spark 创建数据管道,将数据从 MongoDB 移动到 RedShift”
到目前为止,我已经能够下载 MongoDB 的开发版本并创建一个测试 Redshift 实例。我该如何着手设置其余的过程并弄湿我的脚。
我知道要使用 Apache Spark 创建数据管道,必须使用 Scala、Python 或 Java 编写代码。我对 SQL 有深入的了解,因此请随意建议我可以轻松学习 Scala、Python 或 Java 中的哪种语言。
我的背景是数据仓库、传统 ETL(Informatica、Datastage 等)。
提前谢谢你:)
【问题讨论】:
【参考方案1】:一个非常好的方法可能是使用 AWS 数据迁移服务 http://docs.aws.amazon.com/dms/latest/userguide/CHAP_Source.MongoDB.html
您可以将 mongodb 指定为源端点,将 redshift 指定为目标端点
【讨论】:
以上是关于使用 Apache-Spark 到 Redshift 的 MongoDB 数据管道的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Apache-Spark 2.x 中使用 java 进行增量序列
如何获取有关当前执行程序 Apache-Spark 的元数据?
Apache-Spark 的 GBT 和 sklearn 的 AUC 差异