Hive实现从表中随机抽样得到一个不重复的数据样本

Posted 静悟生慧

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive实现从表中随机抽样得到一个不重复的数据样本相关的知识,希望对你有一定的参考价值。

select a.* 
from (
select a.*,rand(12345) as random
from tripdata a
) a
where random between 0 and 0.2;

  

a.country       a.city  a.visitors      a.random
阿联酋  迪拜    268     0.3618031071604718
阿联酋  迪拜    108     0.932993485288541
澳大利亚        墨尔本  230     0.8330913489710237
澳大利亚        墨尔本  188     0.32647575623792624
澳大利亚        堪培拉  378     0.2355237906476252






select distinct a.*
from tripdata a
order by rand(12345) 
limit 5;

 

country       city  visitors
阿联酋  阿布扎比        157
阿联酋  阿布扎比        137
阿联酋  迪拜    144
阿联酋  阿布扎比        227
澳大利亚        堪培拉  240


https://www.jianshu.com/p/2b73e7c53355

以上是关于Hive实现从表中随机抽样得到一个不重复的数据样本的主要内容,如果未能解决你的问题,请参考以下文章

在PostgreSQL中,如何根据分类列中每个级别的比例从表中随机抽样?

通过 PRESTO 连接器选择随机数据样本

简单随机抽样的条件都有哪些

马尔可夫链蒙特卡罗法

机器学习中数据抽样还是有很多讲究的?

随机抽样的 SQL 分区