AWS Glue PySpark 无法计算记录

Posted

技术标签:

【中文标题】AWS Glue PySpark 无法计算记录【英文标题】:AWS Glue PySpark can't count the records 【发布时间】:2018-05-05 20:20:10 【问题描述】:

当我尝试提取 1 个表时,我正在使用 AWS Glue 从 EC2 (Postgre) 中提取数据以进行转换并将其放在 S3 上。我收到如下错误:

有什么我可以做的吗?我尝试删除 null 字段或 fillna,但这些都不起作用。

更新:我什至选择了一个字符串类型的列,但仍然遇到同样的错误:

【问题讨论】:

因为屏幕截图的最后一行描述了问题(NaN 表示 bigdecimal) 是的,但是我不知道错误指的是哪一列,即使我选择了字符串类型的列,它仍然会产生同样的错误。 【参考方案1】:

你能试试吗,df.isnull().any()df.isnull().sum()。这应该有助于我们查看包含无效 NaN 数据的列。另外请尝试使用df.count(dropna = False) / df.na.drop() 获取记录数。请参考here,其中详细解释了处理空列数据。

希望这会有所帮助。

【讨论】:

以上是关于AWS Glue PySpark 无法计算记录的主要内容,如果未能解决你的问题,请参考以下文章

Python/Pyspark 迭代代码(用于 AWS Glue ETL 作业)

如何将 PySpark / AWS Glue 中 RDD 的所有行加入/连接/合并成一条长线?

如何仅为 AWS Glue 脚本启用粘合日志记录

aws glue / pyspark - 如何使用 Glue 以编程方式创建 Athena 表

AWS Glue PySpark 替换 NULL

PySpark / Glue:PicklingError:无法序列化对象:TypeError:无法腌制thread.lock对象