无法使用 pyspark 显示 mongo 数据库

Posted

技术标签:

【中文标题】无法使用 pyspark 显示 mongo 数据库【英文标题】:Unable to display mongo database with pyspark 【发布时间】:2020-10-02 20:27:00 【问题描述】:

我使用 pyspark 将一个 json 文件导入到 mongo。但是,我不确定文件上传后如何显示来自 mongo 的内容。

加载json文件到mongo

from pymongo import MongoClient
from pprint import pprint

client =  MongoClient('localhost', 27017)
df = spark.read.format('json').load('json_file.json')

db = client['mydatabase']
db.mycollection.insert_one(df)

将内容写入 mongo 后如何显示内容?

【问题讨论】:

【参考方案1】:

您需要使用find(),它会返回包含集合中记录的游标。

以最简单的形式,显示数据使用:

print(list(db.mycollection.find()))

【讨论】:

以上是关于无法使用 pyspark 显示 mongo 数据库的主要内容,如果未能解决你的问题,请参考以下文章

无法使用 pyspark 将 Xml 数据读取到数据帧

无法使用 Pyspark 访问外部 Hive 元存储

PySpark - 无法显示随机森林模型的预测(无法执行用户定义的函数($anonfun$1: (vector) => vector))

如何在 ejs 模板中使用数组显示来自 mongo 的 json 数据?

无法在 PySpark SQLContext DataFrame 中显示列

SPARK 安装后无法在 MAC 中运行 pyspark