AWS Glue PySpark 无法计算记录

Posted 2023-04-15

技术标签:

【中文标题】AWS Glue PySpark 无法计算记录【英文标题】：AWS Glue PySpark can't count the records 【发布时间】：2018-05-05 20:20:10 【问题描述】：

当我尝试提取 1 个表时，我正在使用 AWS Glue 从 EC2 (Postgre) 中提取数据以进行转换并将其放在 S3 上。我收到如下错误：

有什么我可以做的吗？我尝试删除 null 字段或 fillna，但这些都不起作用。

更新：我什至选择了一个字符串类型的列，但仍然遇到同样的错误：

【问题讨论】：

因为屏幕截图的最后一行描述了问题（NaN 表示 bigdecimal）是的，但是我不知道错误指的是哪一列，即使我选择了字符串类型的列，它仍然会产生同样的错误。 【参考方案1】：

你能试试吗，df.isnull().any() 或 df.isnull().sum()。这应该有助于我们查看包含无效 NaN 数据的列。另外请尝试使用df.count(dropna = False) / df.na.drop() 获取记录数。请参考here，其中详细解释了处理空列数据。

希望这会有所帮助。

【讨论】：

以上是关于AWS Glue PySpark 无法计算记录的主要内容，如果未能解决你的问题，请参考以下文章

Python/Pyspark 迭代代码（用于 AWS Glue ETL 作业）

如何将 PySpark / AWS Glue 中 RDD 的所有行加入/连接/合并成一条长线？

如何仅为 AWS Glue 脚本启用粘合日志记录

aws glue / pyspark - 如何使用 Glue 以编程方式创建 Athena 表

AWS Glue PySpark 替换 NULL

PySpark / Glue：PicklingError：无法序列化对象：TypeError：无法腌制thread.lock对象