将列表转换为数据框,然后在 pyspark 中加入不同的数据框
Posted
技术标签:
【中文标题】将列表转换为数据框,然后在 pyspark 中加入不同的数据框【英文标题】:Convert list to dataframe and then join with different dataframe in pyspark 【发布时间】:2021-01-27 13:55:11 【问题描述】:我正在使用 pyspark 数据帧。
我有一个日期类型值列表:
date_list = ['2018-01-19', '2018-01-20', '2018-01-17']
我还有一个数据框 (mean_df),它只有一列 (mean)。
+----+
|mean|
+----+
|67 |
|78 |
|98 |
+----+
现在我想将 date_list 转换为列并加入 mean_df:
预期输出:
+------------+----+
|dates |mean|
+------------+----+
|2018-01-19 | 67|
|2018-01-20 | 78|
|2018-01-17 | 98|
+------------+----+
我尝试将列表转换为数据框(date_df):
date_df = spark.createDataFrame([(l,) for l in date_list], ['dates'])
然后对 date_df 和 mean_df 使用 monotonically_increasing_id() 和新列名“idx”并使用 join :
date_df = mean_df.join(date_df, mean_df.idx == date_df.idx).drop("idx")
我收到超时错误,所以我将默认的 broadcastTimeout 300s 更改为 6000s
spark.conf.set("spark.sql.broadcastTimeout", 6000)
但它根本不起作用。此外,我现在正在处理一个非常小的数据样本。实际数据足够大。
代码片段:
date_list = ['2018-01-19', '2018-01-20', '2018-01-17']
mean_list = []
for d in date_list:
h2_df1, h2_df2 = hypo_2(h2_df, d, 2)
mean1 = h2_df1.select(_mean(col('count_before')).alias('mean_before'))
mean_list.append(mean1)
mean_df = reduce(DataFrame.unionAll, mean_list)
【问题讨论】:
Spark 数据帧是无序的。你怎么知道 mean_df 数据框中的哪一行对应于哪个日期? @mck 平均值是使用 for 循环计算的。并且 for 循环从 date_list 获取日期。所以这三种方式基本对应列表中的日期顺序。 意思是第一个被收集在一个列表中。然后将其转换为数据帧 mean_df。我希望将日期和均值放在一个数据框中以进行进一步分析。 当您将其转换为数据框时,您将丢失列表中的顺序,因此分配日期变得不可能。您需要将收集平均值的日期包含在列表中。你能展示一下代码吗? @mck 当然,我刚刚在帖子中添加了 sn-p。 【参考方案1】:您可以使用withColumn
和lit
将日期添加到数据框:
import pyspark.sql.functions as F
date_list = ['2018-01-19', '2018-01-20', '2018-01-17']
mean_list = []
for d in date_list:
h2_df1, h2_df2 = hypo_2(h2_df, d, 2)
mean1 = h2_df1.select(F.mean(F.col('count_before')).alias('mean_before')).withColumn('date', F.lit(d))
mean_list.append(mean1)
mean_df = reduce(DataFrame.unionAll, mean_list)
【讨论】:
以上是关于将列表转换为数据框,然后在 pyspark 中加入不同的数据框的主要内容,如果未能解决你的问题,请参考以下文章