Pyspark:检查数据框中是不是存在列[重复]

Posted

技术标签:

【中文标题】Pyspark:检查数据框中是不是存在列[重复]【英文标题】:Pyspark : Checking if a column exist in the dataframe [duplicate]Pyspark:检查数据框中是否存在列[重复] 【发布时间】:2020-08-23 01:34:04 【问题描述】:

我有一个大型数据框,我需要检查数据框中是否存在特定列(column_A),如果该列存在,则基于需要进行一些处理,否则它必须进行一些其他处理 -

我目前正在下面尝试 -

    try:
        input_df = input_df.withColumn("column_A", input_df["column_A"].cast(StringType()))
        Do some processing
    except:
        input_df = input_df.drop('column_B')

必须有更好的方法来实现它。提前致谢

【问题讨论】:

【参考方案1】:

我不明白什么是“更好”的方式,但这是可行的。

if "id" in df.columns:
    print("There is id")
else:
    print("There is no id")

# There is id

【讨论】:

以上是关于Pyspark:检查数据框中是不是存在列[重复]的主要内容,如果未能解决你的问题,请参考以下文章

检查列 pyspark df 的值是不是存在于其他列 pyspark df

Spark Scala,如何检查数据框中是不是存在嵌套列

pyspark 数据框中所有列的总计数为零

使用 pyspark 将 Spark 数据框中的列转换为数组 [重复]

Pyspark:检查数组类型列是不是包含列表中的值[重复]

pyspark将列添加到列表中已经不存在的数据框