PySpark 在创建包含现有列名的新列时读取多个文件
Posted
技术标签:
【中文标题】PySpark 在创建包含现有列名的新列时读取多个文件【英文标题】:PySpark reading multiple files while creating new column containing existing column name 【发布时间】:2018-11-16 16:30:09 【问题描述】:我想使用 pyspark 读取 n 个 csv 文件。 csv 具有相同的架构,但列名不同。
在阅读这些文件时,我想创建一个额外的列“管道”,其中包含第一列名称的子字符串。
我该如何实现?
df = spark.read.format("csv") \
.option("header", True) \
.load(path + "*.csv")
.withColumn("pipeline",
【问题讨论】:
【参考方案1】:df = spark.read.format("csv") \
.option("header", "false") \
.load(path + "*.csv")
.toDF('header_1')
.withColumn("pipeline", lit(path))
【讨论】:
请在您的回答中添加描述或评论 列标题未知,如何检索'header_1'?以上是关于PySpark 在创建包含现有列名的新列时读取多个文件的主要内容,如果未能解决你的问题,请参考以下文章
SQL/PySpark:创建一个包含过去 n 天的行数的新列
如何在 pyspark 数据框列上拟合内核密度估计并将其用于创建具有估计的新列