如何比较Hive对MR工作绩效的影响?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何比较Hive对MR工作绩效的影响?相关的知识,希望对你有一定的参考价值。

了解两个查询中哪一个在同一个集群中最快但与当时集群使用无关的最佳方法是什么?

如果在群集负载较低时运行第一个查询而在负载较高时运行第二个查询,则持续时间将不准确。

我总是使用Total MapReduce CPU Time(CP毫秒),但看起来可能不准确,因为一些非MR操作不计入CPU时间(例如输入文件解压缩)。

答案

运行map reduce作业时,通过选择正确的作业ID,可以在作业浏览器“https://:8088”上查看与作业相关的所有统计信息。我们还可以通过使用像Ganglia这样的UI工具获取内存消耗,GC暂停等作业详细信息,这些工具可以提供有关CUP当前使用状态的信息,等等。这些hadoop作业还会在文件上公开他们的JMX。可以在“https:/// jmx”上检查这些数据。我们可以获得统计数据,我们可以使用JMeter,JConsole,Exposing JMX等工具再次将其显示为石墨或grafana等仪表板工具。

以上是关于如何比较Hive对MR工作绩效的影响?的主要内容,如果未能解决你的问题,请参考以下文章

Hive SQL的执行流程

工作绩效数据工作绩效信息和工作绩效报告的区别

Impala,Presto和Hive在MR3上的性能评估

Hive与优化方法

Hive与优化方法

绩效考核的内容如何更有效的设计?