PySpark 在创建包含现有列名的新列时读取多个文件

Posted

技术标签:

【中文标题】PySpark 在创建包含现有列名的新列时读取多个文件【英文标题】:PySpark reading multiple files while creating new column containing existing column name 【发布时间】:2018-11-16 16:30:09 【问题描述】:

我想使用 pyspark 读取 n 个 csv 文件。 csv 具有相同的架构,但列名不同。

在阅读这些文件时,我想创建一个额外的列“管道”,其中包含第一列名称的子字符串。

我该如何实现?

 df = spark.read.format("csv") \
                .option("header", True) \
                .load(path + "*.csv")
                .withColumn("pipeline", 

【问题讨论】:

【参考方案1】:
df = spark.read.format("csv") \
                .option("header", "false") \
                .load(path + "*.csv")
                .toDF('header_1')
                .withColumn("pipeline", lit(path))

【讨论】:

请在您的回答中添加描述或评论 列标题未知,如何检索'header_1'?

以上是关于PySpark 在创建包含现有列名的新列时读取多个文件的主要内容,如果未能解决你的问题,请参考以下文章

SQL/PySpark:创建一个包含过去 n 天的行数的新列

在 pyspark 数据框中循环遍历两列时将值添加到新列

在将带有空字符串的新列添加到熊猫数据框时替换现有列名

如何在 pyspark 数据框列上拟合内核密度估计并将其用于创建具有估计的新列

如何在pyspark数据框中添加多个带有when条件的新列?

在 PySpark 中将字符串常量添加为列时未解析的引用点亮