sql Hive数据抽样表抽样(不推荐)
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了sql Hive数据抽样表抽样(不推荐)相关的知识,希望对你有一定的参考价值。
-- 注意: 取样的时候关键字TABLESAMPLE必须紧跟源表名(不能跟在子查询的表名后)
-- TABLESAMPLE仅支持全表取样, 不支持源后面带任何条件
-- 按行数取样
SELECT * FROM fdm.fdm_szad_w_ad_info_day TABLESAMPLE(1000 ROWS) WHERE ftime='20180426';
-- 按数据大小(单位为M)取样(仅支持CombineHiveInputFormat)
SELECT * FROM fdm.fdm_szad_w_ad_info_day TABLESAMPLE(30M) WHERE ftime='20180426';
-- 按数据大小的百分比来取样(仅支持CombineHiveInputFormat)
SELECT * FROM fdm.fdm_szad_w_ad_info_day TABLESAMPLE(10 PERCENT) WHERE ftime='20180426';
以上是关于sql Hive数据抽样表抽样(不推荐)的主要内容,如果未能解决你的问题,请参考以下文章
【Hive】数据抽样
Hive中的桶表入门(适用于抽样查询)
#yyds干货盘点#Hive数据抽样与存储格式详解
复习 | HIVE 随机采样②
算子:sample(false, 0.1)抽样数据
Hive实现从表中随机抽样得到一个不重复的数据样本