spark-shell 及日志配置

Posted 2023-03-19

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了spark-shell 及日志配置相关的知识，希望对你有一定的参考价值。

参考技术A 1、当SparkContex线程被调用且没有被stop()时，可以使用http://192.168.1.xxx:4040来监控application的状态，但是当sc关闭时，4040页面就无法打开，所以配置History Server

http://spark.apache.org/docs/latest/running-on-yarn.html 官方文档

然后输入网址，显示如下

http://192.168.1.xxx:18080/

2、运行spark-shell时，会自动创建SparkContex sc ,

打开http://192.168.1.xxx:4040/ 观察job运行状态

spark-shell读取.log文件获取日志信息后，怎么进行分析？比如统计包含404的行数

用spark-shell去进行日志信息的统计的话，首先第一步就是创建rdd，将数据加载进去。
第二步，就是进行map操作，然后调用filter进行过滤，包含404的页面，然后调用count进行统计行数。

当然，如果你要进行更详细的统计，或者操作（如果你的log，每列数量都相同的话），可以使用java编写自定义的日志处理类，然后在map的时候，对log进行操作。参考技术A awk命令去处理

以上是关于spark-shell 及日志配置的主要内容，如果未能解决你的问题，请参考以下文章

Spark源码解析 —— Spark-shell浅析

Odoo/OpenERP 日志配置使用及实现

解决spark-shell输出日志信息过多

Spring Boot日志配置及输出

nginxnginx日志配置及日志切割

Git配置及使用(使用云服务器）

spark-shell 及 日志配置

spark-shell读取.log文件获取日志信息后，怎么进行分析？比如统计包含404的行数

spark-shell 及日志配置