MongoDB & Spark:mongo-hadoop 和 mongo-spark 的区别

Posted

技术标签:

【中文标题】MongoDB & Spark:mongo-hadoop 和 mongo-spark 的区别【英文标题】:MongoDB & Spark: difference between mongo-hadoop and mongo-spark 【发布时间】:2018-07-10 05:12:27 【问题描述】:

mongo-hadoop 和 mongo-spark 连接器有什么区别,pymongo 是否仅适用于 mango-hadoop?

pymongo 是否仅与 mongo-hadoop 一起使用?

【问题讨论】:

【参考方案1】:

用于 Hadoop 的 MongoDB 连接器p 是一个库,它允许将 MongoDB(或其数据格式的备份文件,BSON)用作 Hadoop MapReduce 任务的输入源或输出目标。它旨在提供更大的灵活性和性能,并可以轻松地将 MongoDB 中的数据与 Hadoop 生态系统的其他部分集成,包括:

    猪 火花 MapReduce Hadoop 流 蜂巢 水槽

用于 Spark 的 MongoDB 连接器提供 MongoDB 和 Apache Spark 之间的集成。

通过该连接器,您可以访问所有用于 MongoDB 数据集的 Spark 库:用于使用 SQL 分析的数据集(受益于自动模式推断)、流式传输、机器学习和图形 API。您还可以将连接器与 Spark Shell 一起使用。

PyMongo 不提供对 PySpark 的任何支持,但 Spark 连接器提供:

https://docs.mongodb.com/spark-connector/master/python-api/

【讨论】:

以上是关于MongoDB & Spark:mongo-hadoop 和 mongo-spark 的区别的主要内容,如果未能解决你的问题,请参考以下文章

无法从使用 mongo spark 连接器读取的 spark DF 中显示/写入。

无法通过 Spark 连接到 Mongo DB

Spark在MongoDB上的读写操作

如何使用适用于 Spark 的 Mongo-Hadoop 连接器删除文档(记录)

通过spark sql 将 hdfs上文件导入到mongodb

docker部署mongo集群