从火花数据框到熊猫数据框

Posted

技术标签:

【中文标题】从火花数据框到熊猫数据框【英文标题】:from spark dataframe to pandas dataframe 【发布时间】:2019-10-01 15:29:26 【问题描述】:

我有一个通过这种方式创建的 spark 数据框:

tx_df = (spark
         .read
         .parquet("/data/file"))



tx_ecommerce = tx_df.filter(tx_df["POS_Cardholder_Presence"]=="ECommerce").show()

我尝试将 tx_commerce 转换为 pandas 数据框。我试过这样:

tx_ecommerce.toPandas()

但我得到了这个错误:

----------------------------------- ---------------------------- AttributeError Traceback(最近调用 最后)在 ----> 1 tx_ecommerce.toPandas()

AttributeError: 'NoneType' 对象没有属性 'toPandas'

请帮忙解决这个问题?

谢谢

【问题讨论】:

【参考方案1】:

当你把 .show() 放在最后时,它不再是 pyspark 数据框了。

删除它,它应该可以工作。

tx_ecommerce =tx_df.filter(tx_df["POS_Cardholder_Presence"]=="ECommerce")

tx_ecommerce.toPandas()

【讨论】:

不用担心。您也可以接受它作为正确答案吗?谢谢:)

以上是关于从火花数据框到熊猫数据框的主要内容,如果未能解决你的问题,请参考以下文章

如何将数据块中的数据从熊猫数据帧加载到火花数据帧

火花数据框删除重复并保留第一

从熊猫数据框到以n维数组为特征的数据框

将熊猫数据帧转换为火花数据帧时收到错误

PySpark:无法创建火花数据框

多索引熊猫数据框到字典