MongoDB & Spark:mongo-hadoop 和 mongo-spark 的区别
Posted
技术标签:
【中文标题】MongoDB & Spark:mongo-hadoop 和 mongo-spark 的区别【英文标题】:MongoDB & Spark: difference between mongo-hadoop and mongo-spark 【发布时间】:2018-07-10 05:12:27 【问题描述】:mongo-hadoop 和 mongo-spark 连接器有什么区别,pymongo 是否仅适用于 mango-hadoop?
pymongo 是否仅与 mongo-hadoop 一起使用?
【问题讨论】:
【参考方案1】:用于 Hadoop 的 MongoDB 连接器p 是一个库,它允许将 MongoDB(或其数据格式的备份文件,BSON)用作 Hadoop MapReduce 任务的输入源或输出目标。它旨在提供更大的灵活性和性能,并可以轻松地将 MongoDB 中的数据与 Hadoop 生态系统的其他部分集成,包括:
-
猪
火花
MapReduce
Hadoop 流
蜂巢
水槽
用于 Spark 的 MongoDB 连接器提供 MongoDB 和 Apache Spark 之间的集成。
通过该连接器,您可以访问所有用于 MongoDB 数据集的 Spark 库:用于使用 SQL 分析的数据集(受益于自动模式推断)、流式传输、机器学习和图形 API。您还可以将连接器与 Spark Shell 一起使用。
PyMongo 不提供对 PySpark 的任何支持,但 Spark 连接器提供:
https://docs.mongodb.com/spark-connector/master/python-api/
【讨论】:
以上是关于MongoDB & Spark:mongo-hadoop 和 mongo-spark 的区别的主要内容,如果未能解决你的问题,请参考以下文章
无法从使用 mongo spark 连接器读取的 spark DF 中显示/写入。
如何使用适用于 Spark 的 Mongo-Hadoop 连接器删除文档(记录)