Cloudera Hadoop Impala - 提取上次刷新日期

Posted

技术标签:

【中文标题】Cloudera Hadoop Impala - 提取上次刷新日期【英文标题】:Cloudera Hadoop Impala - Extracting last refresh date 【发布时间】:2021-11-09 16:07:07 【问题描述】:

有没有办法从 Cloudera Hadoop impala 中的数据库中获取具有上次刷新日期的所有表的列表?

我正在尝试编写一个可以执行此操作的自定义 SQL 查询,以便我可以使用它来构建一个仪表板(在 Tableau 中),我们可以在其中跟踪表是否刷新。所以我们可以采取相应的行动。我使用连接进行了尝试,但是表太多了,我相信有更好的方法来做到这一点。 (数据库名称Core_research,有500多张表

【问题讨论】:

【参考方案1】:

我曾经运行一个脚本,每个星期天都会刷新表格上的列统计信息。我们无法运行所有的桌子,但我们在时间允许的范围内做了很多。当脚本在数据库/表中运行时,您可以执行相同的操作但实际记录。这将为您提供您正在寻找的功能。

另一个选择是从 Impala 日志中创建一个表并以这种方式跟踪事物。 (用一些花哨的正则表达式来跟踪刷新)

【讨论】:

谢谢你,马特,我会调查的 :) 如果您觉得我的回答有用,如果您觉得合适,我会很感激您将其标记为答案。

以上是关于Cloudera Hadoop Impala - 提取上次刷新日期的主要内容,如果未能解决你的问题,请参考以下文章

快速 Hadoop 分析(Cloudera Impala vs Spark/Shark vs Apache Drill)

从放弃到入门27之大数据Cloudera Impala

Cloudera impala 支持 mongodb 吗?

上海Cloudera 数据分析师培训:PigHive和 Impala

设置和配置 cloudera impala

Hadoop 1.0.4 上的 Impala