top-N 抽样

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了top-N 抽样相关的知识,希望对你有一定的参考价值。

 

 

 

 
1, 使用hive标记random:(如果是mr,就自己标记random值)
use ps;
set mapred.job.priority=VERY_HIGH;
set mapred.job.map.capcity=300;
set mapred.reduce.tasks=200;
 
insert overwrite directory "*"
select url, count(1), min(link_found_time), rand()
from entry
where *=‘20151106‘
group by url;
 
2, 数据抽样:
在各个分区各使用小顶推实现top-N,
 
3, 得到top-N
TopN:使用小顶堆实现。
 

 

以上是关于top-N 抽样的主要内容,如果未能解决你的问题,请参考以下文章

[总结]随机抽样与蓄水池抽样问题

hive 随机抽样 distribute by rand() sort by rand() limit n

#yyds干货盘点#Hive数据抽样与存储格式详解

随机抽样 (numpy.random)

【Hive】数据抽样

HiveSql抽样