AWS Glue PySpark 无法计算记录
Posted
技术标签:
【中文标题】AWS Glue PySpark 无法计算记录【英文标题】:AWS Glue PySpark can't count the records 【发布时间】:2018-05-05 20:20:10 【问题描述】:当我尝试提取 1 个表时,我正在使用 AWS Glue 从 EC2 (Postgre) 中提取数据以进行转换并将其放在 S3 上。我收到如下错误:
有什么我可以做的吗?我尝试删除 null 字段或 fillna,但这些都不起作用。
更新:我什至选择了一个字符串类型的列,但仍然遇到同样的错误:
【问题讨论】:
因为屏幕截图的最后一行描述了问题(NaN 表示 bigdecimal) 是的,但是我不知道错误指的是哪一列,即使我选择了字符串类型的列,它仍然会产生同样的错误。 【参考方案1】:你能试试吗,df.isnull().any()
或 df.isnull().sum()
。这应该有助于我们查看包含无效 NaN 数据的列。另外请尝试使用df.count(dropna = False)
/ df.na.drop()
获取记录数。请参考here,其中详细解释了处理空列数据。
希望这会有所帮助。
【讨论】:
以上是关于AWS Glue PySpark 无法计算记录的主要内容,如果未能解决你的问题,请参考以下文章
Python/Pyspark 迭代代码(用于 AWS Glue ETL 作业)
如何将 PySpark / AWS Glue 中 RDD 的所有行加入/连接/合并成一条长线?
aws glue / pyspark - 如何使用 Glue 以编程方式创建 Athena 表
PySpark / Glue:PicklingError:无法序列化对象:TypeError:无法腌制thread.lock对象