使用awk && sed 提取日志中的有效信息

Posted 2020-12-31

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了使用awk && sed 提取日志中的有效信息相关的知识，希望对你有一定的参考价值。

日志信息：
源数据：1.1.1.1 - - [08/Aug/2018:00:00:14 +0800] "GET http://www.test.test/test1/test2/tes3 HTTP/1.1" 200 1306 "http://a.b.cn/test/test?form" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134"
访问一级目录： http://www.test.test/test1    访问来源： http://a.b.cn

开始处理:
1.先使用awk 提取需要的信息，由于目标站点的域名是固定的 www.test.test 所以这个不做判断，只判断访问来源和访问状态
#取第7 9 11列 状态200 源是b.cn
awk ‘$9 =="200" && $11 ~/^"http://[a-zA-Z0-9]*.b.cn/ {print $7,"	",$9,"	",$11}‘
得到如下数据
http://www.test.test/test1/test2/tes3  200 http://a.b.cn/test/test?form
2.再使用sed 对剩下的数据进行处理，只需要源的域名，以及访问目标的一级域名
 sed ‘s/"//g‘ | sed ‘s/(http://[a-zA-Z0-9]*.b.cn)/.*/1/g‘   #截取b.cn域名信息
 sed ‘s/(http://www.test.test/[0-9a-zA-Z_]*/).*200/1/g‘ #取www.test.test的第一级目录
3.通过awk 和 sed 之后，再去重 。去重需要先排序 再使用 uniq去重
sort -k2n | uniq
4.完整脚本
#!/bin/bash
cd /home/log
log=`ls *.log`
for i in $log
do
          cat $i | awk ‘$9 =="200" && $11 ~/^"http://[a-zA-Z0-9]*.b.cn/ {print $7,"	",$9,"	",$11}‘ |  sed ‘s/"//g‘ | sed ‘s/(http://[a-zA-Z0-9]*.test.test)/.*/1/g‘| sed ‘s/(http:
//www.test.test/[0-9a-zA-Z_]*/).*200/1/g‘ >>test.log
done
sleep 3
cat test.log | sort -k2n | uniq >test1.log
以上是关于使用awk && sed 提取日志中的有效信息的主要内容，如果未能解决你的问题，请参考以下文章 
 使用sed提取QueryString值
 awk 和 sed 文本操作（从特定组中提取大多数负值）
 Ubuntu下查找nginx日志
 sed && awk
 sed &amp;&amp; awk工具 及一些经常使用的shell脚本
 awk&sed 小实例