猪 - 获得前 n 名并在“其他”中分组休息

Posted

技术标签:

【中文标题】猪 - 获得前 n 名并在“其他”中分组休息【英文标题】:Pig - Get Top n and group rest in 'other' 【发布时间】:2015-08-03 19:34:21 【问题描述】:

我有我已经分组和汇总的数据,看起来像这样-

Date Country Browser Count
---- ------- ------- -----
2015-07-11,US,Chrome,13
2015-07-11,US,Opera Mini,1
2015-07-11,US,Firefox,2
2015-07-11,US,IE,1
2015-07-11,US,Safari,1
...
2015-07-11,UK,Chrome Mobile,1026
2015-07-11,UK,IE,455
2015-07-11,UK,Mobile Safari,4782
2015-07-11,UK,Mobile Firefox,40
...
2015-07-11,DE,android browser,1316
2015-07-11,DE,Opera Mini,3
2015-07-11,DE,PS4 Web browser,11

我想获得每个国家/地区排名前 n 的浏览器(按计数),并希望在“其他”下汇总其余浏览器。我查看了 Pig 的内置 TOP 功能,但我将如何在其他中进行分组。我想要的结果,例如 (n = 2) ->

2015-07-11,US,Chrome,13
2015-07-11,US,Firefox,2
2015-07-11,US,Other,3

最好的方法是什么?

【问题讨论】:

Pig 不是 SQL,所以我要删除那个标签。 【参考方案1】:

好的..这个要求很好..

我只是在 Pig 脚本的 LOAD 语句中使用您的输入。

输入:

2015-07-11,US,Chrome,13
2015-07-11,US,Opera Mini,1
2015-07-11,US,Firefox,2
2015-07-11,US,IE,1
2015-07-11,US,Safari,1
2015-07-11,UK,Chrome Mobile,1026
2015-07-11,UK,IE,455
2015-07-11,UK,Mobile Safari,4782
2015-07-11,UK,Mobile Firefox,40
2015-07-11,DE,Android browser,1316
2015-07-11,DE,Opera Mini,3
2015-07-11,DE,PS4 Web browser,11
2015-07-11,US,Chrome,13
2015-07-11,US,Firefox,2
2015-07-11,US,Other,3

下面是这个的编码。

您可以将 n 参数的值传递给 pig 脚本,目前我在 LIMIT 语句本身中为 n 设置了值 2。(即 n=2)。

实际上我在下面的代码中硬编码了 n=2。

records     = LOAD '/user/cloudera/inputfiles/entries.txt' USING PigStorage(',') as (dt:chararray,country:chararray,browser:chararray,count:int);

records_each    = FOREACH(GROUP records BY (dt,country,browser)) GENERATE flatten(group) AS (dt,country,browser), MAX(records.count) as counts;

records_grp_order = ORDER records_each BY dt ASC , country  ASC , counts DESC;

records_grp     = GROUP records_grp_order BY (dt, country);

rec_each    = FOREACH records_grp 

               top_2_recs = LIMIT records_grp_order  2;
               generate  MAX(top_2_recs.dt) AS temp_dt, MAX(top_2_recs.country) AS temp_country, flatten(top_2_recs.browser) AS temp_browser;

            ;
rec_join    =  JOIN records_each BY (dt,country,browser)  left outer , rec_each BY (temp_dt,temp_country,temp_browser);

rec_join_each   = FOREACH rec_join generate dt,country, (temp_browser is not null ? browser : 'OTHERS') AS browser, counts AS counts;

rec_final_grp   = GROUP rec_join_each BY (dt,country,browser);

final_output    = FOREACH rec_final_grp generate flatten(group) AS (dt,country,browser), SUM(rec_join_each.counts) AS total_counts;

sorted_output   = ORDER final_output BY  dt ASC , country  ASC, total_counts DESC;

dump sorted_output;

输出

(2015-07-11,DE,Android browser,1316)
(2015-07-11,DE,PS4 Web browser,11)
(2015-07-11,DE,OTHERS,3)
(2015-07-11,UK,Mobile Safari,4782)
(2015-07-11,UK,Chrome Mobile,1026)
(2015-07-11,UK,OTHERS,495)
(2015-07-11,US,Chrome,13)
(2015-07-11,US,OTHERS,3)
(2015-07-11,US,Firefox,2)

【讨论】:

以上是关于猪 - 获得前 n 名并在“其他”中分组休息的主要内容,如果未能解决你的问题,请参考以下文章

获得指定时间的前一个时间的分组

如何从数据框中按降序获得前 n 家公司

R语言ggplot2可视化:使用dplyr包计算每个分组个数的比例(对计算获得的百分比进行近似,值保留整数部分)使用ggplot2可视化条形图(bar plot)并在条形图上添加百分比标签

如何获得猪行的平均值

获取每组分组结果的前 n 条记录

获取每组分组结果的前 n 条记录