Redshift 中的最后一个非空值（按组）

Posted 2023-03-31

技术标签:

【中文标题】Redshift 中的最后一个非空值（按组）【英文标题】：Last Non-Null Value in Redshift by Group 【发布时间】：2018-04-09 12:26:15 【问题描述】：

我正在使用 Redshift 并希望通过用户 ID 接收最后一个非 Null 值。

这是一个示例数据集：

     Date     UserID      Value
4-18-2018        abc          1
4-19-2018        abc       NULL
4-20-2018        abc       NULL
4-21-2018        abc          8
4-19-2018        def          9
4-20-2018        def         10
4-21-2018        def       NULL
4-22-2018        tey       NULL
4-23-2018        tey          2

如果新用户以 NULL 开头，则替换为 0。

我希望我的最终数据集如下所示：

     Date     UserID      Value
4-18-2018        abc          1
4-19-2018        abc          1
4-20-2018        abc          1
4-21-2018        abc          8
4-19-2018        def          9
4-20-2018        def         10
4-21-2018        def         10
4-22-2018        tey          1
4-23-2018        tey          2

任何帮助将非常感谢！

【问题讨论】：

【参考方案1】：

您可以使用lag() 和ignore nulls 选项来做到这一点：

select date, userid,
       coalesce(value, lag(value ignore nulls) over (partition by userid order by date)) as value
from t;

如果值在增加，您还可以使用累积最大值：

select date, userid,
       max(value) over (partition by userid order by date) as value
from t;

【讨论】：

我创建了一个新列来查看差异，看起来它正在通过执行上述方法更改值列。是否可以简单地按组（用户 ID）取空值以上的值，如果空值之前没有用户 ID，则将其设为“1”？ @NickKnauer 。 . .应该有一个coalesce() 来保留现有值。

以上是关于Redshift 中的最后一个非空值（按组）的主要内容，如果未能解决你的问题，请参考以下文章

将空值设置为列表中最接近的最后一个非空值 - LINQ

Spark UDF 检索最后一个非空值

Teradata SQL 获取最后一个非空值

列集的平均值减去最后一个非空值？ [复制]

Spark / Scala - RDD填充最后一个非空值

如何使用 Spark DataFrame 将最后一个非空值结转到后续行