如何使用pyspark在jupyter笔记本中显示我的csv数据文件
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何使用pyspark在jupyter笔记本中显示我的csv数据文件相关的知识,希望对你有一定的参考价值。
我正在研究一个大数据csv数据集。我需要使用pyspark在jupyter-notebook上阅读它。我的数据大约是400多万条记录(540000行和7列。)我能做什么才能显示我打印的所有数据集?
我试图使用pandas数据帧,但它确实显示错误,如附加的屏幕截图,然后我试图更改它给出的语法错误的编码类型:解析时意外的EOF。你能帮我么?
答案
对于最后一个截图,我认为你错过了使用处理程序with
在python中读取文件的方式。如果您的数据在json文件中,您可以按如下方式阅读:
with open('data_file.json', encoding='utf-8') as data_file:
data = json.loads(data_file.read())
请注意,它是'data_file.json'
而不是data_file.json
。 csv示例使用相同的logis
如果它在csv文件中,那非常简单:
file = pd.read_csv('data_file.csv')
尝试删除csv读取步骤中的编码参数我不建议使用笔记本来读取如此庞大的文件,即使你正在使用pyspark。考虑使用该文件的一部分在笔记本中可视化,然后切换到另一个平台。
希望能帮助到你
以上是关于如何使用pyspark在jupyter笔记本中显示我的csv数据文件的主要内容,如果未能解决你的问题,请参考以下文章
使用 Jupyter Notebook 为 PySpark 内核设置 spark.app.name
如何在 Jupyter notebook 中为 pyspark 设置 MySQL 的 JDBC 驱动程序?
python / pyspark 版本的 Jupyter 问题