Spark中来自pyspark的熊猫[重复]
Posted
技术标签:
【中文标题】Spark中来自pyspark的熊猫[重复]【英文标题】:Pandas from pyspark in spark [duplicate] 【发布时间】:2019-02-25 11:26:30 【问题描述】:如果我创建了数据框或 rdd 并将其转换为 pandas 数据框。它仍然适用于火花吗?还是只能在 python 内存中工作?
【问题讨论】:
【参考方案1】:如果您只是将 spark df 或 rdd 转换为 pandas,您将获得 master 中的所有数据(即在一台机器上)
Spark,从 v 2.4.0 开始(您以前也可以这样做,但需要做更多的工作来来回翻译)包括创建 Pandas 用户定义函数的能力(Pandas UDF 参见 https://spark.apache.org/docs/latest/sql-pyspark-pandas-with-arrow.html)这使您可以以分布式方式使用 pandas。请注意,在这种情况下,每个 pandas 实例都会获取部分数据
【讨论】:
您能否为您的第一份声明提供任何支持文件?you'd get all the data in the master (i.e. on a single machine)
支持文档在 toPandas @meW 的代码中。它使用collect
创建熊猫数据框。您应该检查问题下提供的链接
@eliasah 会的。谢谢。
谢谢。还有一个问题。有什么方法可以知道我的 pandas 数据框在分布式数据中吗?如果我使用诸如apply()之类的分布式padna数据帧,它仍然会分发panda数据帧吗?或者它会在 master 中收集?
只要您将某些内容编写为 UDF,它将在工作人员(实际上是在与 spark 工作人员并行运行的 python 实例上)进行评估,并且它将处理自己的部分数据副本以上是关于Spark中来自pyspark的熊猫[重复]的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Spark 中确定 ALS.transImplicit 中的偏好/置信度?
如何在 PySpark 中进行分组并查找列的唯一项目 [重复]
PySpark:读取 pyspark 框架中的 csv 数据。为啥它在框架中显示特殊字符?除了使用熊猫之外,以表格形式显示的任何方式[重复]