发送到 Spark Cell Magic Dataframe 大小配置

Posted

技术标签:

【中文标题】发送到 Spark Cell Magic Dataframe 大小配置【英文标题】:Send To Spark Cell Magic Dataframe size configuration 【发布时间】:2021-04-12 10:08:40 【问题描述】:

https://github.com/jupyter-incubator/sparkmagic/blob/master/examples/Send%20local%20data%20to%20Spark.ipynb

我查看了上面关于如何从本地发送到 spark 内核的文档。

但是,我遇到了一个问题,我有本地 pandas df fo 60,000 行,但是当我在这个数据帧上尝试 send_to_spark 单元魔术时,只发送了 2500 行。无论如何我可以发送整个 60,000 行而不在本地拆分 df 吗?

我知道从 spark 发送到本地,%%spark -o df -n 60000 可以完成这项工作。

【问题讨论】:

【参考方案1】:

使用 %%send_to_spark -i df_sending -t df -n df_sending -m 60000

-i : 我要发送的文件

-t : 我要发送的类型

-n : 分配给文件的变量名

-m : 我将发送的最大行数

使用 %%help 激发细胞魔法

【讨论】:

以上是关于发送到 Spark Cell Magic Dataframe 大小配置的主要内容,如果未能解决你的问题,请参考以下文章

spark magic - 输入sql context作为字符串

Spring Kafka Producer 不发送到 Kafka 1.0.0(Magic v1 不支持记录头)

如何使用 jupyter notebook 在 pyspark 中的 Hive 上使用 %sql Magic 字符串启用 spark SQL

未找到 Spark Cell 魔法

Storm,Spark,Flink对比

FlinkFlink 报错 Corrupt data, magic number mismatch. Expected