如何使用pyspark在jupyter笔记本中显示我的csv数据文件

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何使用pyspark在jupyter笔记本中显示我的csv数据文件相关的知识,希望对你有一定的参考价值。

我正在研究一个大数据csv数据集。我需要使用pyspark在jupyter-notebook上阅读它。我的数据大约是400多万条记录(540000行和7列。)我能做什么才能显示我打印的所有数据集?

我试图使用pandas数据帧,但它确实显示错误,如附加的屏幕截图,然后我试图更改它给出的语法错误的编码类型:解析时意外的EOF。你能帮我么?

答案

对于最后一个截图,我认为你错过了使用处理程序with在python中读取文件的方式。如果您的数据在json文件中,您可以按如下方式阅读:

with open('data_file.json', encoding='utf-8') as data_file:
    data = json.loads(data_file.read())

请注意,它是'data_file.json'而不是data_file.json。 csv示例使用相同的logis

如果它在csv文件中,那非常简单:

file = pd.read_csv('data_file.csv')

尝试删除csv读取步骤中的编码参数我不建议使用笔记本来读取如此庞大的文件,即使你正在使用pyspark。考虑使用该文件的一部分在笔记本中可视化,然后切换到另一个平台。

希望能帮助到你

以上是关于如何使用pyspark在jupyter笔记本中显示我的csv数据文件的主要内容,如果未能解决你的问题,请参考以下文章

PySpark Jupyter 笔记本显示器

使用 Jupyter Notebook 为 PySpark 内核设置 spark.app.name

如何在 Jupyter notebook 中为 pyspark 设置 MySQL 的 JDBC 驱动程序?

python / pyspark 版本的 Jupyter 问题

设置 Jupyter Pyspark 在 EC2 和 EMR 之间工作

如何在 jupyter 中显示完整输出不仅是最后一个结果 - 对于 aws emr pyspark