Hive表和Netezza表的匹配记录
Posted
技术标签:
【中文标题】Hive表和Netezza表的匹配记录【英文标题】:Matching records between Hive table and Netezza table 【发布时间】:2016-08-02 17:06:49 【问题描述】:这是我在这里的第一个问题,如果你们能帮助我,我将不胜感激。
我运行了一个 sqoop 导入以将表从 Netezza 传输到 Hive。现在我必须将 Netezza 表中的记录与 Hive 表进行匹配,以检查所有记录是否已成功导入 hive。我需要确保一个表的每条记录都与另一个表匹配,并找出不匹配的记录(如果有)。我的项目负责人建议我使用脚本来过滤不匹配的记录并插入到新表中。 (通过唯一键连接两个表并使用“where”过滤不匹配的记录)。问题是我是 Hadoop 新手,不知道如何去做。
有人可以帮忙吗?
【问题讨论】:
【参考方案1】:首先,您可以运行 SELECT 查询来计算导入的 Hive 表上的记录数。
select count(*) from hive_table;
如果 Netezza 表和 hive 表之间的计数不匹配,那么您需要首先检查 Sqoop 导入期间生成的日志。这将使您了解未加载记录的原因。
【讨论】:
我已经运行了一个 select count(*) 并且记录数匹配。有什么方法可以从 hive 访问 Netezza 表? 不,我不这么认为。表/数据必须在 HDFS 上,Hive 才能访问它以进行任何计算。以上是关于Hive表和Netezza表的匹配记录的主要内容,如果未能解决你的问题,请参考以下文章