如何对蜂巢中的每一组进行采样?

Posted

技术标签:

【中文标题】如何对蜂巢中的每一组进行采样?【英文标题】:How to sample for each group in hive? 【发布时间】:2016-03-09 09:14:20 【问题描述】:

我在 hive 中有一个大表,其中包含 15 亿个以上的值。其中一列是 category_id,它有大约 20 个不同的值。我想对表格进行采样,以便每个类别都有 1 百万个值。

我查看了 Random sample table with Hive, but including matching rows 和 Hive: Creating smaller table from big table 并想出了如何从整个表中获取随机样本,但我仍然无法弄清楚如何为每个 category_id 获取样本。

【问题讨论】:

【参考方案1】:

我了解到您希望在多个文件中对表格进行抽样。您可能需要检查 Hive bucketing 或 Dynamic partitions 以平衡多个文件夹/文件之间的记录。

【讨论】:

以上是关于如何对蜂巢中的每一组进行采样?的主要内容,如果未能解决你的问题,请参考以下文章

如何在不更改特定列的情况下对数据框中的数据进行重新采样?

如何在不更改特定列的情况下对数据框中的数据进行重新采样?

可以单独对多个列进行 GROUP BY 并使用 django ORM 将它们中的每一列聚合到其他列?

Batch Norm 对神经网络中的每一层进行正则化(未完成)

对 SQL 中的每一列求和并在行中显示它们

如何使用Scala的DataFrame比较表中的每一列而不关心列是啥? [重复]