hive分组取随机数

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hive分组取随机数相关的知识,希望对你有一定的参考价值。

参考技术A hive取随机的数据,可以使用rand()函数,用rand()对数据排序,取topN
如果要用到分组取随机数,比如每个班级随机取10人,针对这种每个分组取topN的情况,可以使用
row_number() over(partition by fieldx order by rand()) as rn

示例:

mysql 分组后 每组随机取一条记录 求sql语句

如题,大家帮我想想SQL语句怎么写,数据库是mysql
如下表:
id type str
1 0 aaa
2 0 bbb
3 1 sss
4 1 ddd
5 2 ggg
6 2 hhh
比如我把表里的记录按type分成3组,每组要随机出一条记录,那么我要的结果就是3条type不同的随机的记录。关键是随机,不是max、min

CREATE TABLE test_gd2gd2(
id INT,
type INT,
str CHAR(3)
);

INSERT INTO test_gd2gd2
SELECT 1, 0, 'aaa' UNION ALL
SELECT 2, 0, 'bbb' UNION ALL
SELECT 3, 1, 'sss' UNION ALL
SELECT 4, 1, 'ddd' UNION ALL
SELECT 5, 2, 'ggg' UNION ALL
SELECT 6, 2, 'hhh';

mysql> SELECT
-> type,
-> (SELECT str FROM test_gd2gd2 sub
-> WHERE type = main.type ORDER BY rand()
-> LIMIT 0,1) AS Rstr
-> FROM
-> test_gd2gd2 main
-> GROUP BY
-> type;
+------+------+
| type | Rstr |
+------+------+
| 0 | bbb |
| 1 | ddd |
| 2 | hhh |
+------+------+
3 rows in set (0.01 sec)

mysql> SELECT
-> type,
-> (SELECT str FROM test_gd2gd2 sub
-> WHERE type = main.type ORDER BY rand()
-> LIMIT 0,1) AS Rstr
-> FROM
-> test_gd2gd2 main
-> GROUP BY
-> type;
+------+------+
| type | Rstr |
+------+------+
| 0 | aaa |
| 1 | sss |
| 2 | hhh |
+------+------+
3 rows in set (0.00 sec)
参考技术A 在sqlserver中用的是top关键字 比如查询user表
select * from user limit 1 ;这就可以了,, 另外 mysql 中的翻页很方便的。比sqlserver中的简单多了。
参考技术B SELECT * FROM (SELECT * FROM tablename ORDER BY RAND()) as a GROUP BY a.type 参考技术C select * from table order by rand() limit 0,1; 参考技术D wangzhiqing999 , holychuo答案均正确,但 wangzhiqing999 好象要强一点,学习了

以上是关于hive分组取随机数的主要内容,如果未能解决你的问题,请参考以下文章

hive的高阶函数

Java 随机分组

好程序员大数据学习路线hive内部函数

2021年大数据Hive:Hive的内置函数(数学字符串日期条件转换行转列)

hive分组排序函数 分组取top10

Hive分组取TOPN数据