猪:如何重新采样时间序列数据?
Posted
技术标签:
【中文标题】猪:如何重新采样时间序列数据?【英文标题】:Pig : how to resample time series data? 【发布时间】:2016-06-26 16:26:05 【问题描述】:我正在使用Pig
处理一个非常大的数据集。
该数据包含timestamp
(最多第二个频率),我想以分钟频率聚合我的数据(计算每分钟的观察次数,对该分钟内的其他变量进行平均)。
使用Pig
可以做到这一点吗?
谢谢!
【问题讨论】:
您可以再创建一列,它是最多分钟的子字符串,然后使用该列对关系进行分组,然后聚合 【参考方案1】:您可以修改时间戳字段(生成新字段,如 YYYYmmddHHMMss 到 YYYYmmddHHMM),然后按时间戳分组并汇总您的数据。
【讨论】:
以上是关于猪:如何重新采样时间序列数据?的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Pandas/Numpy 中使用 dateOffset 对日内时间序列数据进行重新采样?
pyspark:在日期和时间上重新采样 pyspark 数据帧
Pandas Dataframe 时间序列重新采样,如何修改 bin 以适应底层数据集的开始和结束时间