正则表达式及编程三剑客(grepsedawk)命令详解

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了正则表达式及编程三剑客(grepsedawk)命令详解相关的知识,希望对你有一定的参考价值。

博文大纲:
一、正则表达式
(1)正则表达式的定义
(2)正则表达式用途
1.基础正则表达式
(1)grep命令工具
2.扩展正则表达式
二、文本编辑处理器
1.grep命令工具
2.sed命令工具
3.awk命令工具

一、正则表达式

(1)正则表达式的定义

正则表达式又称正规表达式、常规表达式。在代码中常简写为regex、regexp或RE。正则表达式是使用单个字符串来描述,匹配一系列符合某个句法规则的字符串。简单的说,正则表达式是一种匹配字符串的方法,通过一些特殊符号,实现快速查找、删除、替换某个特定字符串。

正则表达式是由普通字符与元字符组成的文字模式。该模式用于描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与搜索的字符串进行匹配。其中,普通字符包括大小写字母、数字、标点符号及一些其他符号,元字符则是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。

正则表达式一般用于脚本编程与文本编辑器。很多文本处理器与程序设计语言均支持正则表达式。比如,LInux系统经常用到的文本处理器(grep、egrep、sed、awk),正则表达式具备很强大的文本匹配功能,能够在文本海洋中快速高效地处理文本。

(2)正则表达式用途

正则表达式对于系统管理员来说是非常重要的,系统运行过程中会产生大量的信息,这些信息中有些是非常重要的,有些仅仅是警告的信息。身为系统管理员如果直接查看这么多的信息数据,无法快速定位到非常重要的信息。如“用户账号登录失败”、“服务启动失败”等重要信息。这是便可以通过正则表达式快速提取有问题的信息,如此一来,可以将运维工作变得更加简单、方便。

系统语系对正则表达式的影响是非常大的!
zh_TW.big5 及 C 这两种语系的输出结果分别如下:
LANG=C 时:0 1 2 3 4 ... A B C D ... Z a b c d ...z
LANG=zh_TW 时:0 1 2 3 4 ... a A b B c C d D ... z Z

为了要避免这样编码所造成的英文与数字的截取问题,因此有些特殊的符号我们得要了解一下的!如图:
技术图片

目前很多软件也支持正则表达式。在Internet中,垃圾广告、邮件等将会造成网络塞车,如果在服务器端就将这些问题提前剔除的话,客户端就会减少很多不必要的带宽消耗。

作为Linux系统管理员来说,掌握正则表达式是必备的条件之一。

1.基础正则表达式

正则表达式的字符串表达方式根据不同的严谨程度分为基本正则表达式与扩展正则表达式。基础正则表达式是常用的正则表达式的最基础的部分。在Linux系统中常见的文件处理工具中grep和sed支持正则表达式,而egrep与awk支持扩展正则式。掌握基础正则表达式的使用方法,首先必须了解基本正则表达式所包含的元字符的含义。

(1)grep命令工具

1)基础正则表达式示例:

[root@localhost ~]# grep -n ‘the‘ test.txt 
//查找包含the的行
[root@localhost ~]# grep -vn ‘the‘ test.txt
//查找不包含the的行
[root@localhost ~]# grep -in ‘the‘ test.txt
//查找包含the的行,而且不区分大小写
[root@localhost ~]# grep -n ‘sh[io]rt‘ test.txt 
//查找以sh开头,以rt结尾,中间是i或o的字符
[root@localhost ~]# grep -n ‘[^w]oo‘ test.txt 
//查询oo前面不是w的字符串
[root@localhost ~]# grep -n ‘[^a-z]oo‘ test.txt 
//查询oo前面不是小写字母的字符串
[root@localhost ~]# grep -n ‘^the‘ test.txt 
//查询以the开头的字符串(^表示开头)
[root@localhost ~]# grep -n ‘^[^a-zA-Z]‘ test.txt 
//查询不以字母开头的字符串([^]则表示反向的意思)
[root@localhost ~]# grep -n ‘.$‘ a.txt 
//查询以“.”结尾的字符串
//$表示行尾的意思,因为“.”是特殊元字符,所以需要使用“”跳脱字符将其转为普通字符
[root@localhost ~]# grep -n ‘w..d‘ test.txt 
//查询w与d之间包含两个字符的行(“.”匹配任意一个字符)
[root@localhost ~]# grep -n ‘ooo*‘ test.txt 
//查找至少包含两个o的字符串,“*”表示的是重复零个或多个前面的单字符
[root@localhost ~]# grep -n ‘woo*d‘ test.txt 
//查询以w开头,以d结尾中间至少包含一个o的行
[root@localhost ~]# grep -n ‘w.*d‘ test.txt 
查询以w开头d结尾,中间的字符可有可无的行(“.”表示任意)
[root@localhost ~]# grep -n ‘o{2}‘ test.txt 
//{n}匹配确定的n次。查询包含两个o的行(“{}”是特殊字符需要用“”转义)
[root@localhost ~]# grep -n ‘wo{2,5}‘ test.txt 
//查询以w开头d结尾,中间包含2~5个o的行({n,m}最少匹配n次且最多m次)
[root@localhost ~]# grep -n ‘wo{2,}‘ test.txt 
查询以w开头以d结尾,中间包含2个以上o的行({n,}至少匹配n次)

2)基础正则表达式常见元字符总结,如图:

技术图片

2.扩展正则表达式

通常情况下会使用基础正则表达式就已经足够了,但是为了简化整个指令,需要使用范围更广的扩展正则表达式。

在Linux系统常见的文本处理工具中egrep与awk支持扩展正则表达式,egrep命令与grep命令的用法基本相似。

1)扩展正则表达式常见元字符总结

技术图片

二、文本编辑处理器

1.grep命令工具

在基础正则表达式中已经提到,这里就不详细介绍了!

2.sed命令工具

sed是一个强大而简单的文本解析转换工具,可以读取文本,并根据指定的条件对文本内容进行编辑,最后输出所有行活仅输出处理的某些行,sed可以在无交互的情况下实现相当复杂的文本处理操作。被广泛的应用于shell脚本中,用于完成各种自动化处理任务。

sed的工作流程主要包括:

  1. 读取:sed从输入流中读取一行内容不能够存储到临时的缓冲区中;
  2. 执行:默认情况下所有的sed命令都在模式空间中按顺序地执行,除非指定了行的地址,否则sed命令将会再所有行上依次执行;
  3. 显示:发送修改后的内容到输出流,再发送数据后,模式空间将会被清空。
    注意:在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容都被处理完。

1)sed命令的语法及相关参数:

常见的sed命令选项常见的参数,如图:
技术图片

如果要求在第几行到第几行之间进行修改等,常见的操作参数包括:
技术图片

2)sed命令用法示例

注意以下操作不会改变文件本身内容,如果需要修改必须带“-i”选项

(1)使用sed命令筛选符合条件

[root@localhost ~]# sed -n ‘p‘ test.txt 
//输出所有内容,等同于“cat test.txt”
[root@localhost ~]# sed -n ‘3p‘ test.txt 
//输出第三行内容
[root@localhost ~]# sed -n ‘3,5p‘ test.txt 
//输出3~5行
[root@localhost ~]# sed -n ‘p;n‘ test.txt
//输出所有奇数行,n表示读入下一行数据
[root@localhost ~]# sed -n ‘n;p‘ test.txt 
//输出所有偶数行,n表示读入下一行数据
[root@localhost ~]# sed -n ‘1,5{p;n}‘ test.txt 
//输出第1行~第5行之间的奇数行(第1、3、5行)
[root@localhost ~]# sed -n ‘10,${n;p}‘ test.txt
//输出第10行至文件尾部之间的偶数行(包括空行)

sed命令与正则表达式结合使用的案例

sed命令结合正则表达式时,格式略微有些不同,正则表达式以“/”包围

[root@localhost ~]# sed -n ‘/the/p‘ test.txt
//输出包含“the”的行
[root@localhost ~]# sed -n ‘4,/the/p‘ test.txt
//输出从第4行到都第一个包含“the”的行
[root@localhost ~]# sed -n ‘/the/=‘ test.txt
//输出包含“the”的行所在的行号(等号(=)用来输出行号)
[root@localhost ~]# sed -n ‘/^PI/p‘ test.txt
//输出以“PI”开头的行
[root@localhost ~]# sed -n ‘/<wood>/p‘ test.txt 
//输出包含单词wood的行,<、>代表单词边界

(2)删除符合条件的文本

nl命令用于计算文件的行数

[root@localhost ~]# nl test.txt | sed ‘3d‘
//删除第3行
[root@localhost ~]# nl test.txt | sed ‘3,5d‘
//删除第3~5行
[root@localhost ~]# nl test.txt | sed ‘/cross/d‘
//删除包含cross的行,原本的第8行被删除
[root@localhost ~]# nl test.txt | sed ‘/cross/! d‘
//删除不包含cross的行
[root@localhost ~]# sed ‘/.$/d‘ test.txt 
//删除以“.”结束的行
[root@localhost ~]# sed ‘/^$/d‘ test.txt 
//删除所有空行
[root@localhost ~]# sed -e ‘/^$/{n;/^$/d}‘ test.txt
//删除空行,连续的空行留一个

(3)替换符合条件的文本

使用sed命令进行替换操作时需要用到的选项:s(字符串替换)、c(整行/整块替换)、y(字符转换)等命令选项。

[root@localhost ~]# sed ‘s/the/THE/‘ test.txt
//将每行中的第一个the替换为THE
[root@localhost ~]# sed ‘s/l/L/2‘ test.txt
//将每行中的第三个“l”替换为“L”
[root@localhost ~]# sed ‘s/the/THE/g‘ test.txt 
//将文件中所有的“the”替换为“THE”
[root@localhost ~]# sed ‘s/o//g‘ test.txt 
//将文件中所有的“o”删除
[root@localhost ~]# sed ‘s/^/#/‘ test.txt 
//在每行的行首插入“#”号
[root@localhost ~]# sed ‘/the/s/^/#/‘ test.txt 
//在包含“the”的每行行首插入“#”号
[root@localhost ~]# sed ‘s/$/EOF/‘ test.txt 
//在每行行尾插入字符串“EOF”
[root@localhost ~]# sed ‘3,5s/the/THE/g‘ test.txt 
//将第3~5行中的所有“the”替换为“THE”
[root@localhost ~]# sed ‘/the/s/o/O/g‘ test.txt 
//将包含“the”的所有行中的o替换为“O”

以上“sed -i”的命令则是直接修改文件内容,立即生效的!

[root@localhost ~]# sed -i ‘1c 1111‘ a.txt 
//替换文中第一行的内容为“1111”
[root@localhost ~]# sed -i ‘1a 1111‘ a.txt 
//在第一行后面插入一行内容,内容为“1111”
[root@localhost ~]# sed -i ‘1i 2222‘ a.txt
//在第一行前面插入一行内容,内容为“2222”
[root@localhost ~]# sed -i ‘1d‘ a.txt
//删除第一行内容
[root@localhost ~]# sed -n ‘1p‘ a.txt
//打印出第一行的内容
[root@localhost ~]# sed -i ‘1s/2222/3333/g‘ a.txt 
//将文本第一行内容“2222”替换为“3333”

(4)迁移符合条件的文本

使用sed命令进行迁移文本操作时需要用到的选项有:

  • g、G将剪贴板中的数据覆盖/追加到指定行;
  • w保存为文件;
  • r读取指定文件;
  • a追加指定内容。
[root@localhost ~]# sed ‘/the/{H;d};$G‘ test.txt 
//将包含“the”的行迁移到文件末尾,“;”用于多个操作
[root@localhost ~]# sed ‘1,5{H;d};17G‘ test.txt 
//将第1~5行的内容转移到第17行后
[root@localhost ~]# sed ‘/the/w out.file‘ test.txt 
//将包含“the”的行另存为文件out.file
[root@localhost ~]# sed ‘/the/r /etc/hostname‘ test.txt 
//将文件/etc/hostname的内容添加到包含“the”的每行以后
[root@localhost ~]# sed ‘3aNEW‘ test.txt 
//在第3行后面插入一个新行,内容为“NEW”
[root@localhost ~]# sed ‘/the/aNEW‘ test.txt 
//在包含“the”的每行后插入一个新行,内容为“NEW”
[root@localhost ~]# sed ‘3aNEW1
NEW2‘ test.txt
//在第3行后面多行内容,中间的“
”表示换行

(5)使用脚本编辑文件

使用sed脚本,将编辑指令存放到文件中(每行一条标记指令),通过“-f”选项来调用。

[root@localhost ~]# sed ‘1,5{H;d};17G‘ test.txt
//将第1~5行内容转移至第17行后

以上操作转换为脚本文件方式:

[root@localhost ~]# vim 1.list
1,5H
1,5d
17G
[root@localhost ~]# sed -f 1.list test.txt

(6)sed直接操作文件示例

编写一个脚本,用来调整vsftpd服务配置:禁止匿名用户,但允许本地用户(也允许写入)登录。

[root@localhost ~]# vim local_only_ftp.sh
#!/bin/bash
S="/usr/share/doc/vsftpd-3.0.2/EXAMPLE/INSERNET_SITE/vsftpd.conf"
C="/etc/vsftpd/vsftpd.conf"
#指定样本文件路径、配置文件路径
[ ! -e "$C.bak" ] && cp $C $C.bak
#备份原来的配置文件,检测(配置文件.bak)是否存在,如果不存在则使用cp命令复制
sed -e ‘/^anonymous_enable/s/YES/NO/g‘ $S > $C
sed -i -e ‘/^local_enable/s/NO/YES/g‘ -e ‘/^write_enable/s/NO/YES/g‘ $C
grep "listen" $C || sed -i ‘$alisten=YES‘ $A
#基于样本配置进行调整,覆盖现有文件
systemctl restart vsftpd
systemctl enable vsftpd
#重启ftp服务,并设置为开机自启动

3.awk命令工具

在Linux/UNIX系统中,awk是一个功能强大的编辑工具,逐行读取输入文本,并根据指定的匹配模式进行查找,对符合条件的内容进行格式化输出或者过滤处理,可以在无交互的情况下实现相当复杂的文本操作,被广泛应用于Shell脚本,完成各种自动化配置任务。

1)awk命令概述

awk执行结果可以通过print的功能将字段数据打印显示。在使用awk命令的过程中,可以使用逻辑操作符“&&”和“||”;
也可以进行简单的数学运算,如+ 、-、*、/、%、^分别表示加、减、乘、除、取余、乘方。

awk从输入文件或者标准输入中读入信息,与sed一样,信息的读入也是逐行读取的。不同的是,awk命令将文本文件中的一行视为一个记录,而将一行中的某一部分(列)作为记录的一个字段。为了操作这些不同的字段(列),awk借用shell中类似于位置变量的方法,用$1、$2…$9顺序的表示不同列,$0表示整行。不同字段与不同字段可以通过指定的方式进行分隔,awk默认的分隔符是空格。awk命令允许使用“-F分隔符”的形式来指定分隔符。

awk命令对/etc/passwd文件的处理过程,如图:
技术图片

awk包含几个特殊的内建变量,如:
技术图片

2)awk命令用法示例

(1)按行输出文本

[root@localhost ~]# awk ‘{print}‘ test.txt 
//输出所有内容,等同于“cat test.txt”
[root@localhost ~]# awk ‘{print $0}‘ test.txt
//输出所有内容,等同于“cat test.txt”
[root@localhost ~]# awk ‘NR==1,NR==3{print}‘ test.txt 
//输出第1~3行的内容
[root@localhost ~]# awk ‘(NR>=1) && (NR<=3) {print}‘ test.txt 
//输出第1~3行的内容
[root@localhost ~]# awk ‘NR==1 || NR==3{print}‘ test.txt 
//输出第1行、第3行的内容
[root@localhost ~]# awk ‘(NR%2)==1 {print}‘ test.txt 
//输出所有奇数行的内容
[root@localhost ~]# awk ‘(NR%2)==0 {print}‘ test.txt 
//输出所有偶数行的内容
[root@localhost ~]# awk ‘/^root/{print}‘ /etc/passwd
//输出以“root”开头的行
[root@localhost ~]# awk ‘/nologin$/{print}‘ /etc/passwd
//输出以“nologin”结尾的行
[root@localhost ~]# awk ‘BEGIN {x=0} ;//bin/bash$/{x++};END {print x}‘ /etc/passwd
//统计以/bin/bash结尾的行数
[root@localhost ~]# grep -c "/bin/bash$" /etc/passwd
//统计以/bin/bash结尾的行数
[root@localhost ~]# awk ‘BEGIN{RS=""}; END{print NR}‘ /etc/squid/squid.conf
//统计以空格分隔的文件段落数

注意:命令较多时,使用“BEGIN……END”

(2)按字段输出文本

[root@localhost ~]# awk ‘{print $3}‘ test.txt 
//输出每行中(以空格分隔)的第3个字段
[root@localhost ~]# awk ‘{print $1,$3}‘ test.txt 
//输出每行中(以空格分隔)的第1个和第3个字段
[root@localhost ~]# awk -F ":" ‘$2==""{print}‘ /etc/shadow
//输出/etc/shadow文件中(以“:”分隔)的第二个字段(密码为空的用户)
[root@localhost ~]# awk ‘BEGIN {FS=":"}; $2=""{print}‘ /etc/shadow
//输出/etc/shadow文件中(以“:”分隔)的第二个字段(密码为空的用户)
[root@localhost ~]# awk -F ":" ‘$7~"/bash"{print $1}‘ /etc/passwd
//输出以“:”分隔且第7个字段中包含“/bash”的行的第1个字段
[root@localhost ~]# awk ‘($1~"nfs") && (NF==8) {print $1,$2}‘ /etc/services
//输出包含8个字段且第1个字段中包含“nfs”的行的第1、2个字段
[root@localhost ~]# awk -F ":" ‘($7!="/bin/bash") && ($7!="/sbin/nologin") {print}‘ /etc/passwd
//输出第7个字段既不为“/bin/bash”也不为“/bin/nologin”的所有行

(3)通过管道,双引号调用Shell命令

[root@localhost ~]# awk -F: ‘/bash$/{print | "wc -l"}‘ /etc/passwd
//调用“wc -l”命令统计使用“bash”的用户个数
[root@localhost ~]# grep -c "bash$" /etc/passwd
//同上一条命令一样的作用
[root@localhost ~]# awk ‘BEGIN {while ("w" | getline) n++ ; {print n-2}}‘
//调用“w”命令,并用力啊统计在线用户数
[root@localhost ~]# awk ‘BEGIN { "hostname" | getline ; print $0}‘
//调用“hostname”命令,并输出当前用户名

(4)使用awk命令进行简单的数学运算

[root@localhost ~]# awk ‘BEGIN{ a=6;b=3;print"(a + b)=",(a + b)}‘
(a + b)= 9
[root@localhost ~]# awk ‘BEGIN{ a=6;b=3;print"(a - b)=",(a - b)}‘
(a - b)= 3
[root@localhost ~]# awk ‘BEGIN{ a=6;b=3;print"(a / b)=",(a / b)}‘
(a / b)= 2
[root@localhost ~]# awk ‘BEGIN{ a=6;b=3;print"(a % b)=",(a % b)}‘
(a % b)= 0

更加详细的awk命令,可以参考博文:awk学习

———————— 本文至此结束,感谢阅读 ————————

以上是关于正则表达式及编程三剑客(grepsedawk)命令详解的主要内容,如果未能解决你的问题,请参考以下文章

Linux文本三剑客--grepsedawk

提升工作效率1000%之Linux三剑客(grepsedawk)

提升工作效率1000%之Linux三剑客(grepsedawk)

三剑客基础详解(grepsedawk)

grepsedawk三剑客

shell那点事儿——运维工程师必会正则表达式及文本处理三剑客