猪:如何重新采样时间序列数据?

Posted

技术标签:

【中文标题】猪:如何重新采样时间序列数据?【英文标题】:Pig : how to resample time series data? 【发布时间】:2016-06-26 16:26:05 【问题描述】:

我正在使用Pig 处理一个非常大的数据集。

该数据包含timestamp(最多第二个频率),我想以分钟频率聚合我的数据(计算每分钟的观察次数,对该分钟内的其他变量进行平均)。

使用Pig 可以做到这一点吗? 谢谢!

【问题讨论】:

您可以再创建一列,它是最多分钟的子字符串,然后使用该列对关系进行分组,然后聚合 【参考方案1】:

您可以修改时间戳字段(生成新字段,如 YYYYmmddHHMMss 到 YYYYmmddHHMM),然后按时间戳分组并汇总您的数据。

【讨论】:

以上是关于猪:如何重新采样时间序列数据?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Pandas/Numpy 中使用 dateOffset 对日内时间序列数据进行重新采样?

pyspark:在日期和时间上重新采样 pyspark 数据帧

Pandas Dataframe 时间序列重新采样,如何修改 bin 以适应底层数据集的开始和结束时间

如何将 pandas Dataframe 时间序列数据从 8hz 重新采样到 16hz?

如何计算熊猫中重新采样的多索引数据帧

如何在不更改特定列的情况下对数据框中的数据进行重新采样?