用分布填充缺失值

Posted 2023-03-25

技术标签:

【中文标题】用分布填充缺失值【英文标题】：Filling missing values with distribution 【发布时间】：2017-07-05 15:35:36 【问题描述】：

所以我有 2 个数据集。

在第一个上，我有一天中每个小时的值。示例：

Date                 Value
05/07/2017 01:00     5
05/07/2017 02:00     10
05/07/2017 03:00     5

在第二个数据集中，我只有每天的总数

Date                 Value
05/07/2017           40

所以我想通过第一个数据集的相同分布来分配第二个数据集的总数。像这样的：

Date                 Value
05/07/2017 01:00     10
05/07/2017 02:00     20
05/07/2017 03:00     10

我该怎么做？我正在使用 R 并为第一个数据集创建了一个时间序列。

【问题讨论】：

如果解决了您的问题，请将答案标记为已接受。 【参考方案1】：

您可能需要检查专门用于缺失数据插补的 R 的 mice 包。在您的情况下，可能有一个 knn 方法可以通过考虑相似的（时间）属性样本来估算缺失值。

再看一遍，也许可以采用更复杂的过程来引导不同时间的值，然后填充缺失值，您必须找到一个随机（时间）组合（假设您使用随机每个时间特定时间池或分布的样本）其中的总和为您所拥有的总和。

【讨论】：

你能给我一些见解吗？抱歉，您所说的见解是什么意思？哪种方法对您更有吸引力？如果我理解正确，我认为是第一个，因为第一个数据具有每天重复的模式。酷，所以你可以做的是用包含“值”的样本训练一个 knn(n=1) 分类器，作为测试集，你可以设置缺少数据的样本并将“值”作为目标变量。这样，您的分类器将以最合适的时间标记缺失的数据。请说明该答案是否适合您，如果适合请采纳。

以上是关于用分布填充缺失值的主要内容，如果未能解决你的问题，请参考以下文章