转发新行填写缺失日期的帐户

Question

我目前有一个数据集，按变量“聚合器”分组为每小时增量。这个每小时数据中存在间隙，我理想的做法是使用前一行向前填充行，该行映射到列x中的变量。

我已经看到了使用PANDAS的类似问题的一些解决方案，但理想情况下我想了解如何使用pyspark UDF最好地解决这个问题。

我最初考虑过像PANDAS这样的东西，但也努力实现这个只是填写忽略聚合器作为第一遍：

df = df.set_index(keys=[df.timestamp]).resample('1H', fill_method='ffill')

但理想情况下我想避免使用PANDAS。

在下面的示例中，我有两行每小时数据（标记为MISSING）。

| timestamp            | aggregator |
|----------------------|------------|
| 2018-12-27T09:00:00Z | A          |
| 2018-12-27T10:00:00Z | A          |
| MISSING              | MISSING    |
| 2018-12-27T12:00:00Z | A          |
| 2018-12-27T13:00:00Z | A          |
| 2018-12-27T09:00:00Z | B          |
| 2018-12-27T10:00:00Z | B          |
| 2018-12-27T11:00:00Z | B          |
| MISSING              | MISSING    |
| 2018-12-27T13:00:00Z | B          |
| 2018-12-27T14:00:00Z | B          |

这里的预期输出如下：

| timestamp            | aggregator |
|----------------------|------------|
| 2018-12-27T09:00:00Z | A          |
| 2018-12-27T10:00:00Z | A          |
| 2018-12-27T11:00:00Z | A          |
| 2018-12-27T12:00:00Z | A          |
| 2018-12-27T13:00:00Z | A          |
| 2018-12-27T09:00:00Z | B          |
| 2018-12-27T10:00:00Z | B          |
| 2018-12-27T11:00:00Z | B          |
| 2018-12-27T12:00:00Z | B          |
| 2018-12-27T13:00:00Z | B          |
| 2018-12-27T14:00:00Z | B          |

感谢帮助。

谢谢。