在 hive mapreduce 中计数 desc

Posted

技术标签:

【中文标题】在 hive mapreduce 中计数 desc【英文标题】:counting desc in hive mapreduce 【发布时间】:2016-09-28 17:16:14 【问题描述】:

我在蜂巢中有一张桌子,其中包括

questionid,questiontag,answerID,userIDofanswerer 

我需要这个数据集中最常用的 10 个标签。

我试过了:

select count(questionID),questiontag from table GROUP BY tags;

但是我如何通过Count(questionID)订购它

【问题讨论】:

【参考方案1】:

ORDER BY cnt DESC LIMIT 10下面的查询中将选择前10个最常用的标签:

    SELECT count(questionID) cnt ,
           questiontag 
      FROM table 
  GROUP BY questiontag 
  ORDER BY cnt DESC 
  LIMIT 10;

count(*) 将计算所有行,包括 NULL questionID

count(questionID) 将只计算 questionID 不为 NULL 的行

【讨论】:

【参考方案2】:

下面试试

select count(questionID) as cnt,questiontag from table GROUP BY questiontag
order by cnt desc limit 10;

【讨论】:

以上是关于在 hive mapreduce 中计数 desc的主要内容,如果未能解决你的问题,请参考以下文章

如何在列表索引中计数()

如何在 Hadoop 中计数? [复制]

如何在 Slick 2.0 中计数(*)?

在访问报告中计数

在 PySpark Dataframe 中计数零次出现

工厂在测试中计数 2 个模型而不是 1 个