发送到 Spark Cell Magic Dataframe 大小配置
Posted
技术标签:
【中文标题】发送到 Spark Cell Magic Dataframe 大小配置【英文标题】:Send To Spark Cell Magic Dataframe size configuration 【发布时间】:2021-04-12 10:08:40 【问题描述】:https://github.com/jupyter-incubator/sparkmagic/blob/master/examples/Send%20local%20data%20to%20Spark.ipynb
我查看了上面关于如何从本地发送到 spark 内核的文档。
但是,我遇到了一个问题,我有本地 pandas df fo 60,000 行,但是当我在这个数据帧上尝试 send_to_spark 单元魔术时,只发送了 2500 行。无论如何我可以发送整个 60,000 行而不在本地拆分 df 吗?
我知道从 spark 发送到本地,%%spark -o df -n 60000 可以完成这项工作。
【问题讨论】:
【参考方案1】:使用 %%send_to_spark -i df_sending -t df -n df_sending -m 60000
-i : 我要发送的文件
-t : 我要发送的类型
-n : 分配给文件的变量名
-m : 我将发送的最大行数
使用 %%help 激发细胞魔法
【讨论】:
以上是关于发送到 Spark Cell Magic Dataframe 大小配置的主要内容,如果未能解决你的问题,请参考以下文章
spark magic - 输入sql context作为字符串
Spring Kafka Producer 不发送到 Kafka 1.0.0(Magic v1 不支持记录头)
如何使用 jupyter notebook 在 pyspark 中的 Hive 上使用 %sql Magic 字符串启用 spark SQL