如何使用具有火花数据流结构的非基于时间的窗口？

Question

我正在尝试使用带有spark和kafka的结构化流媒体窗口。我在非基于时间的数据上使用窗口，因此我收到此错误：

'Non-time-based windows are not supported on streaming DataFrames/Datasets;;
Window

这是我的代码：

window = Window.partitionBy("input_id").orderBy("similarity")
outputDf = inputDf
        .crossJoin(ticketDf.withColumnRenamed("IDF", "old_IDF")) 
        .withColumn("similarity", cosine_similarity_udf(col("IDF"), col("old_IDF"))) 
        .withColumn("rank", rank().over(window)) 
        .filter(col("rank") < 10)

所以我正在寻找一个提示或参考，以便在非基于时间的数据上使用窗口......

Answer 1

另一答案