我为什么学习hive窗口分析函数

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了我为什么学习hive窗口分析函数相关的知识,希望对你有一定的参考价值。

1. 窗口函数

  LEAD(column_name, n, default_value),用于统计窗口内往下第n行的值,

  LAG(column_name, n, default_value),用于统计窗口内往上第n行的值。

  FIRST_VALUE(column_name),分组窗口排序后,截止到当前行的第一个值;

  LAST_VALUE(column_name),分组窗口排序后,截止当前航的最后一个值;

2. OVER语句

  SUM/COUNT/MIN/MAX/AVG(column_name) OVER(PARTITION BY c1, c2 ORDER BY c3, c4  ROWS_CLUSTER),

  其中,ROWS_CLUSTER为:

    a. ROWS CURRENT ROW

    b. ROWS BETWEEN n PRECEDING AND n FOLLOWING

    c. ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNED FOLLOWING

  UNBOUNDED和n可以互相替换。

3. 分析函数

  ROW_NUMBER() OVER(PARTITION BY c1, c2 ORDER BY c3, c4),以及另外一些,此处不再赘述。

4. 示例:

  略。

以上是关于我为什么学习hive窗口分析函数的主要内容,如果未能解决你的问题,请参考以下文章

Hive学习之路 (十五)Hive分析窗口函数 CUME_DIST和PERCENT_RANK

Hive碎碎念(2):分析函数和窗口函数

Hive学习窗口函数源码阅读

hive函数之~窗口函数与分析函数

Hive分析窗口函数

Hive分析函数LAG和LEAD详解