spark-shell 及 日志配置
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark-shell 及 日志配置相关的知识,希望对你有一定的参考价值。
参考技术A 1、当SparkContex线程被调用且没有被stop()时,可以使用http://192.168.1.xxx:4040来监控application的状态,但是当sc关闭时,4040页面就无法打开,所以配置History Serverhttp://spark.apache.org/docs/latest/running-on-yarn.html 官方文档
然后输入网址,显示如下
http://192.168.1.xxx:18080/
2、运行spark-shell时,会自动创建SparkContex sc ,
打开http://192.168.1.xxx:4040/ 观察job运行状态
spark-shell读取.log文件获取日志信息后,怎么进行分析?比如统计包含404的行数
用spark-shell去进行日志信息的统计的话,首先第一步就是创建rdd,将数据加载进去。第二步,就是进行map操作,然后调用filter进行过滤,包含404的页面,然后调用count进行统计行数。
当然,如果你要进行更详细的统计,或者操作(如果你的log,每列数量都相同的话),可以使用java编写自定义的日志处理类,然后在map的时候,对log进行操作。 参考技术A awk命令去处理
以上是关于spark-shell 及 日志配置的主要内容,如果未能解决你的问题,请参考以下文章