无法读取 pyspark 中的 mongodb 数据(json)
Posted
技术标签:
【中文标题】无法读取 pyspark 中的 mongodb 数据(json)【英文标题】:unable to read the mongodb data (json) in pyspark 【发布时间】:2018-09-28 16:10:43 【问题描述】:我正在通过 pymongo 连接 mongodb 数据库,并达到了以 json 格式在 db 外部获取它的预期结果。但我的任务是我需要通过 pyspark 创建一个配置单元表,我发现 mongodb 提供了 spark 不支持的 json (RF719)。当我尝试在 pyspark (dataframe) 中加载数据时,它显示为损坏的记录。 .如果在python中转换json格式的任何可能的方法也很好..请提出回应
【问题讨论】:
你是如何读取数据的? 我正在通过 pymongo 读取 mongodb 数据,并获得了输出为 json 的结果。请在下面找到代码 @Raja 你的 cmets 的问题。 【参考方案1】:mport json with open('D:/json/aaa.json') as f: d = f.read() da = ''.join(d.split()) print(type(da)) print (da) daa=da.replace('u'','') daaa= json.loads(daa) print(daaa) 对答案很满意。因此关闭这个问题
【讨论】:
以上是关于无法读取 pyspark 中的 mongodb 数据(json)的主要内容,如果未能解决你的问题,请参考以下文章
无法使用 Pyspark 2.4.4 读取 s3 存储桶中的镶木地板文件
PySpark local模式执行读取mongodb报错 Exception: Java gateway process exited before sending its port number(代
无法使用 PySpark 从 Elasticsearch 读取
无法使用本地 PySpark 从 S3 读取 json 文件
Spark - MongoDb - 与 pyspark 版本相比,java 中的 dataframe.limit(2) 慢