Hive 连接查询非常慢

Posted

技术标签:

【中文标题】Hive 连接查询非常慢【英文标题】:Hive join query very slow 【发布时间】:2014-05-05 16:10:11 【问题描述】:

我试图用 6 个减速器来减少他的以下查询,但我总是看到只有一个减速器启动。不知道为什么任务参数被忽略。请帮忙。 (我使用的是旧版本的 hive,因此不支持查询)

设置 mapred.reduce.tasks=6;

select concat(test1.col_0,test1.col_1) from test1 left outer join test2 where concat(test1.col_0,test1.col_1) = concat(test2.col_0,test2.col_1) and concat(test2.col_0,test2 .col_1) 为空;

【问题讨论】:

您可以尝试将第一个 where 子句转换为 ON 条件:select concat(test1.col_0,test1.col_1) from test1 left outer join test2 ON concat(test1.col_0,test1.col_1) = concat(test2.col_0,test2.col_1) 其中 concat(test2.col_0,test2.col_1) 为空; 【参考方案1】:

重新发布评论作为答案:

您可以尝试将第一个 where 子句转换为 ON 条件吗:

select concat(test1.col_0,test1.col_1) from test1 left outer join test2 ON concat(test1.col_0,test1.col_1) = concat(test2.col_0,test2.col_1) where concat(test2.col_0,test2.col_1) IS NULL;

【讨论】:

以上是关于Hive 连接查询非常慢的主要内容,如果未能解决你的问题,请参考以下文章

hive查询为啥在yarn上看不到

MS Access 中通过 ODBC 连接 MS SQL 表的查询非常慢

中小型表上的左连接非常慢

Hive学习系列:maven+springboot+CDH环境下,连接Hive进行操作

使用横向连接搜索非常慢

与 wp_postmeta 连接的 wp_posts 内部的 Wordpress 慢查询