Spark中来自pyspark的熊猫[重复]

Posted 2023-04-17

技术标签:

【中文标题】Spark中来自pyspark的熊猫[重复]【英文标题】：Pandas from pyspark in spark [duplicate] 【发布时间】：2019-02-25 11:26:30 【问题描述】：

如果我创建了数据框或 rdd 并将其转换为 pandas 数据框。它仍然适用于火花吗？还是只能在 python 内存中工作？

【问题讨论】：

【参考方案1】：

如果您只是将 spark df 或 rdd 转换为 pandas，您将获得 master 中的所有数据（即在一台机器上）

Spark，从 v 2.4.0 开始（您以前也可以这样做，但需要做更多的工作来来回翻译）包括创建 Pandas 用户定义函数的能力（Pandas UDF 参见 https://spark.apache.org/docs/latest/sql-pyspark-pandas-with-arrow.html）这使您可以以分布式方式使用 pandas。请注意，在这种情况下，每个 pandas 实例都会获取部分数据

【讨论】：

您能否为您的第一份声明提供任何支持文件？ you'd get all the data in the master (i.e. on a single machine) 支持文档在 toPandas @meW 的代码中。它使用collect 创建熊猫数据框。您应该检查问题下提供的链接 @eliasah 会的。谢谢。谢谢。还有一个问题。有什么方法可以知道我的 pandas 数据框在分布式数据中吗？如果我使用诸如apply（）之类的分布式padna数据帧，它仍然会分发panda数据帧吗？或者它会在 master 中收集？只要您将某些内容编写为 UDF，它将在工作人员（实际上是在与 spark 工作人员并行运行的 python 实例上）进行评估，并且它将处理自己的部分数据副本

以上是关于Spark中来自pyspark的熊猫[重复]的主要内容，如果未能解决你的问题，请参考以下文章

如何在 Spark 中确定 ALS.transImplicit 中的偏好/置信度？

如何在 PySpark 中进行分组并查找列的唯一项目 [重复]

PySpark：读取 pyspark 框架中的 csv 数据。为啥它在框架中显示特殊字符？除了使用熊猫之外，以表格形式显示的任何方式[重复]

Python：将熊猫数据框保存到镶木地板文件

来自 Spark 安装的 Pyspark VS Pyspark python 包

pyspark使用熊猫读取csv，如何保留标题