如何hadoop 看hive执行日志

Posted 2023-03-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何hadoop 看hive执行日志相关的知识，希望对你有一定的参考价值。

Hadoop archive 唯一的优势可能就是将众多的小文件打包成一个har 文件了，那这个文件就会按照dfs.block.size 的大小进行分块，因为hdfs为每个块的元数据大小大约为150个字节，如果众多小文件的存在（什么是小文件内，就是小于dfs.block.size 大小的文件，这样每个文件就是一个block）占用大量的namenode 堆内存空间，打成har 文件可以大大降低namenode 守护节点的内存压力。但对于MapReduce 来说起不到任何作用，因为har文件就相当一个目录，仍然不能讲小文件合并到一个split中去，一个小文件一个split ，任然是低效的，这里要说一点<<hadoop 权威指南中文版>>对这个翻译有问题，上面说可以分配到一个split中去，但是低效的。
既然有优势自然也有劣势，这里不说它的不足之处，仅介绍如果使用har 并在hadoop中更好的使用har 文件
首先看下面的命令
hadoop archive -archiveName 20131101.har /user/hadoop/login/201301/01 /user/hadoop/login/201301/01
我用上面的命令就可以将 /user/hadoop/login/201301/01 目录下的文件打包成一个 20131101.har 的归档文件，但是系统不会自动删除源文件，需要手动删除
hadoop fs -rmr /user/hadoop/login/201301/01/*.*.* 我是用正则表达式来删除的，大家根据自己的需求删除原始文件参考技术A 当脚本在运行时报错信息如下：
Examining task ID: task_201201061122_0007_m_000002 (and more) from job job_201201061122_0007
Exception in thread "Thread-23" java.lang.RuntimeException: Error while reading from task log url
at org.apache.hadoop.hive.ql.exec.errors.TaskLogProcessor.getErrors(TaskLogProcessor.java:130)
at org.apache.hadoop.hive.ql.exec.JobDebugger.showJobFailDebugInfo(JobDebugger.java:211)
at org.apache.hadoop.hive.ql.exec.JobDebugger.run(JobDebugger.java:81)
at java.lang.Thread.run(Thread.java:662)
Caused by: java.io.IOException: Server returned HTTP response code: 400 for URL: http://10.200.187.27:50060/tasklog?taskid=attempt_201201061122_0007_m_000000_2&start=-8193
at sun.net.www.protocol.http.HttpURLConnection.getInputStream(HttpURLConnection.java:1436)
at java.net.URL.openStream(URL.java:1010)
at org.apache.hadoop.hive.ql.exec.errors.TaskLogProcessor.getErrors(TaskLogProcessor.java:120)
... 3 more
FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask
MapReduce Jobs Launched:

将http://10.200.187.27:50060/tasklog?taskid=attempt_201201061122_0007_m_000000_2&start=-8193这段复制出来，输入到IE浏览器的地址栏内，然后出现这样的信息：
HTTP ERROR 400

Problem accessing /tasklog. Reason:
Argument attemptid is required
Powered by Jetty://

这时将attemptid替换浏览器地址栏里的参数taskid，然后就出现以下内容：
Task Logs: 'attempt_201201061122_0006_m_000000_1'

stdout logs
stderr logs
Traceback (most recent call last):
File "/bin/is_good_quality.py", line 8, in <module>
if(temp!="9999" and re.match("[01459]",q)):
NameError: name 'q' is not defined
org.apache.hadoop.hive.ql.metadata.HiveException: Hit error while closing ..
at org.apache.hadoop.hive.ql.exec.ScriptOperator.close(ScriptOperator.java:452)
at org.apache.hadoop.hive.ql.exec.Operator.close(Operator.java:566)
at org.apache.hadoop.hive.ql.exec.Operator.close(Operator.java:566)
at org.apache.hadoop.hive.ql.exec.Operator.close(Operator.java:566)
at org.apache.hadoop.hive.ql.exec.ExecMapper.close(ExecMapper.java:193)
at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:57)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:436)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:372)
at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1059)
at org.apache.hadoop.mapred.Child.main(Child.java:249)
org.apache.hadoop.hive.ql.metadata.HiveException: Hit error while closing ..
at org.apache.hadoop.hive.ql.exec.ScriptOperator.close(ScriptOperator.java:452)
at org.apache.hadoop.hive.ql.exec.Operator.close(Operator.java:566)
at org.apache.hadoop.hive.ql.exec.Operator.close(Operator.java:566)
at org.apache.hadoop.hive.ql.exec.Operator.close(Operator.java:566)
at org.apache.hadoop.hive.ql.exec.ExecMapper.close(ExecMapper.java:193)
at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:57)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:436)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:372)
at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1059)
at org.apache.hadoop.mapred.Child.main(Child.java:249)
org.apache.hadoop.hive.ql.metadata.HiveException: Hit error while closing ..
at org.apache.hadoop.hive.ql.exec.ScriptOperator.close(ScriptOperator.java:452)
at org.apache.hadoop.hive.ql.exec.Operator.close(Operator.java:566)
at org.apache.hadoop.hive.ql.exec.Operator.close(Operator.java:566)
at org.apache.hadoop.hive.ql.exec.Operator.close(Operator.java:566)
at org.apache.hadoop.hive.ql.exec.ExecMapper.close(ExecMapper.java:193)
at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:57)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:436)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:372)
at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1059)
at org.apache.hadoop.mapred.Child.main(Child.java:249)

Hive查看执行日志

HIVE-如何查看执行日志

HIVE既然是运行在hadoop上，最后又被翻译为MapReduce程序，通过yarn来执行。所以我们如果想解决HIVE中出现的错误，需要分成几个过程

HIVE自身翻译成为MR之前的解析错误
Hadoop文件系统的错误
YARN调度过程中的错误

2,3过程中的错误，请参考hadoop相关的教程，这里只是提醒大家思考的时候需要考虑到这两个方面的原因。搞清楚哪一个过程出问题之后采取进一步分析。

1.HIVE默认log文件保存的地方

/tmp/<user.name>文件夹的hive.log文件中，全路径就是/tmp/当前用户名/hive.log。

2.如何定位当前job的log信息

每个job执行后都会产生Query ID，在hive.log中搜索关键字。确认时间一致后，之后的log就是当前job的信息。

Query ID = root_20171108160217_d51b321f-1902-4353-ae5b-2ebe5227f82f

3.如何查看更多的错误信息

在默认的日志级别情况下，是不能将DEBUG信息输出，这样一来出现的各种详细的错误信息都是不能数错的。但是我们可以通过以下两种方式修改log4j输出的日志级别，从而利用这些调试日志进行错误定位，具体做法如下：

  $ hive --hiveconf hive.root.logger=DEBUG,console （hive启动时用该命令替代）

或者在${HIVE_HOME}/conf/hive-log4j.properties文件中找到hive.root.logger属性，并将其修改为下面的设置

hive.root.logger=DEBUG,console

以上是关于如何hadoop 看hive执行日志的主要内容，如果未能解决你的问题，请参考以下文章

Hive查看执行日志

在 hadoop 中如何执行 hive 查询

我应该如何对 s3 中的数据进行分区以与 hadoop hive 一起使用？

如何周期性把每天日志导入hive

执行hive命令时没有反应

入门Hadoop---Hive的搭建