如何对蜂巢中的每一组进行采样?
Posted
技术标签:
【中文标题】如何对蜂巢中的每一组进行采样?【英文标题】:How to sample for each group in hive? 【发布时间】:2016-03-09 09:14:20 【问题描述】:我在 hive 中有一个大表,其中包含 15 亿个以上的值。其中一列是 category_id
,它有大约 20 个不同的值。我想对表格进行采样,以便每个类别都有 1 百万个值。
我查看了 Random sample table with Hive, but including matching rows 和 Hive: Creating smaller table from big table 并想出了如何从整个表中获取随机样本,但我仍然无法弄清楚如何为每个 category_id
获取样本。
【问题讨论】:
【参考方案1】:我了解到您希望在多个文件中对表格进行抽样。您可能需要检查 Hive bucketing 或 Dynamic partitions 以平衡多个文件夹/文件之间的记录。
【讨论】:
以上是关于如何对蜂巢中的每一组进行采样?的主要内容,如果未能解决你的问题,请参考以下文章
可以单独对多个列进行 GROUP BY 并使用 django ORM 将它们中的每一列聚合到其他列?