Shell 编程之正则表达式与文件处理器

Posted 纵拥千晚星

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Shell 编程之正则表达式与文件处理器相关的知识,希望对你有一定的参考价值。

基础正则表达式示例

下面的操作需要提前准备一个名为

test.txt 的测试文件,文件具体内容如下所示。

[root@localhost ~]# cat test.txt

he was

short and fat.

He was

wearing a blue polo shirt with black pants.

The

home of Football on BBC Sport online.

the

tongue is boneless but it breaks bones.12!

google

is the best tools for search keyword.

The

year ahead will test our political establishment to the limit.

PI=3.141592653589793238462643383249901429

1)查找特定字符

查找特定字符非常简单,如执行以下命令即可从

test.txt 文件中查找出特定字符“the”

所在位置。其中“-n”表示显示行号、“-i”表示不区分大小写。命令执行后,符合匹配标

准的字符,字体颜色会变为红色(本章中全部通过加粗显示代替)。

[root@localhost ~]# grep -n the test.txt

Shell

[root@localhost ~]# grep -in the test.txt

Shell

若反向选择,如查找不包含“the”字符的行,则需要通过

grep 命令的“-vn”选项实现。

[root@localhost ~]# grep -vn the test.txt

1:he was short and fat.

2:He was wearing a blue polo shirt with black pants.

3:The home of Football on BBC Sport online.

7:PI=3.141592653589793238462643383249901429

8:a wood cross!

9:Actions speak louder than words

10:

11:#woood #

12:#woooooood #

13:AxyzxyzxyzxyzC

14:I bet this place is really spooky late at night!

15:Misfortunes never come alone/single.

16:I shouldnt have lett so tast.

2)利用中括号“[]”来查找集合字符

想要查找“shirt”与“short”这两个字符串时,可以发现这两个字符串均包含“sh”

与“rt”。此时执行以下命令即可同时查找到“shirt”与“short”这两个字符串。“[]”中

无论有几个字符,都仅代表一个字符,也就是说“[io]”表示匹配“i”或者“o”。

[root@localhost ~]# grep -n sh[io]rt test.txt

1:he

was short and fat.

2:He

was wearing a blue polo shirt with black pants.

若要查找包含重复单个字符“oo”时,只需要执行以下命令即可。

[root@localhost ~]# grep -n oo test.txt

Shell

若查找“oo”前面不是“w”的字符串,只需要通过集合字符的反向选择“[^]”来实现

该目的,如执行“grep

–n‘[^w]oo’test.txt”命令表示在 test.txt 文本中查找“oo”

前面不是“w”的字符串。

[root@localhost ~]# grep -n [^w]oo test.txt

Shell

在上述命令的执行结果中发现“woood”与“wooooood”也符合匹配规则,二者均包含

“w”。其实通过执行结果就可以看出,符合匹配标准的字符加粗显示,而上述结果中可以得

知,“#woood

#”中加粗显示的是“ooo”,而“oo”前面的“o”是符合匹配规则的。同理

“#woooooood

#”也符合匹配规则。

若不希望“oo”前面存在小写字母,可以使用“grep

–n‘[^a-z]oo’test.txt”命令

实现,其中“a-z”表示小写字母,大写字母则通过“A-Z”表示。

[root@localhost ~]# grep -n [^a-z]oo test.txt

3:The

home of Football on BBC Sport online.

查找包含数字的行可以通过“grep

–n‘[0-9]’test.txt”命令来实现。

[root@localhost ~]# grep -n [0-9] test.txt

4:the

tongue is boneless but it breaks bones.12!

7:PI=3.141592653589793238462643383249901429

3)查找行首“^”与行尾字符“$”

基础正则表达式包含两个定位元字符:“^”(行首)与“$”(行尾)。在上面的示例中,

查询“the”字符串时出现了很多包含“the”的行,如果想要查询以“the”字符串为行首

的行,则可以通过“^”元字符来实现。

[root@localhost ~]# grep -n ^the test.txt

4:the

tongue is boneless but it breaks bones.12!

查询以小写字母开头的行可以通过“^[a-z]”规则来过滤,查询大写字母开头的行则使

用“^[A-Z]”规则,若查询不以字母开头的行则使用“^[^a-zA-Z]”规则。

[root@localhost ~]# grep -n ^[a-z] test.txt

1:he

was short and fat.

4:the

tongue is boneless but it breaks bones.12!

5:google

is the best tools for search keyword.

8:a

wood cross!

[root@localhost ~]# grep -n ^[A-Z] test.txt

2:He

was wearing a blue polo shirt with black pants.

3:The

home of Football on BBC Sport online.

6:The

year ahead will test our political establishment to the limit.

7:PI=3.141592653589793238462643383249901429

9:Actions

speak louder than words

13:AxyzxyzxyzxyzC

14:I

bet this place is really spooky late at night!

15:Misfortunes

never come alone/single.

16:I

shouldnt have lett so tast.

[root@localhost ~]# grep -n ^[^a-zA-Z] test.txt

11:#woood

#

12:#woooooood

#

“^”符号在元字符集合“[]”符号内外的作用是不一样的,在“[]”符号内表示反向选

择,在“[]”符号外则代表定位行首。反之,若想查找以某一特定字符结尾的行则可以使用

“$”定位符。例如,执行以下命令即可实现查询以小数点(.)结尾的行。因为小数点(.)

在正则表达式中也是一个元字符(后面会讲到),所以在这里需要用转义字符“\\”将具有特

殊意义的字符转化成普通字符。

[root@localhost ~]# grep -n \\.$ test.txt

1:he

was short and fat.

2:He

was wearing a blue polo shirt with black pants.

3:The

home of Football on BBC Sport online.

5:google

is the best tools for search keyword.

6:The

year ahead will test our political establishment to the limit.

15:Misfortunes

never come alone/single.

16:I

shouldnt have lett so tast.

当查询空白行时,执行“grep

–n‘^$’test.txt”命令即可。

[root@localhost

~]# grep -n ^$ test.txt

10:

4)查找任意一个字符“.”与重复字符“*”

前面提到,在正则表达式中小数点(.)也是一个元字符,代表任意一个字符。例如,

执行以下命令就可以查找“w??d”的字符串,即共有四个字符,以

w 开头 d 结尾。

[root@localhost ~]# grep -n w..d test.txt

5:google

is the best tools for search keyword.

8:a

wood cross!

9:Actions

speak louder than words

在上述结果中,“wood”字符串“w..d”匹配规则。若想要查询

oo、ooo、ooooo 等资料,

则需要使用星号(*)元字符。但需要注意的是,“*”代表的是重复零个或多个前面的单字

符。“o*”表示拥有零个(即为空字符)或大于等于一个“o”的字符,因为允许空字符,所

以执行“grep

–n‘o*’test.txt”命令会将文本中所有的内容都输出打印。如果是“oo*”,

则第一个 o

必须存在,第二个 o 则是零个或多个 o,所以凡是包含 o、oo、ooo、ooo,等的

资料都符合标准。同理,若查询包含至少两个

o 以上的字符串,则执行“grep –n‘ooo*’

test.txt”命令即可。

[root@localhost ~]# grep -n ooo* test.txt

3:The

home of Football on BBC Sport online.

5:google

is the best tools for search keyword.

8:a

wood cross!

11:#woood

#

12:#woooooood

#

14:I

bet this place is really spooky late at night!

查询以 w

开头 d 结尾,中间包含至少一个 o 的字符串,执行以下命令即可实现。

[root@localhost ~]# grep -n woo*d test.txt

8:a

wood cross!

11:#woood

#

12:#woooooood

#

查询以 w

开头 d 结尾,中间的字符可有可无的字符串。

[root@localhost ~]# grep -n w.*d test.txt

1:he

was short and fat.

5:google

is the best tools for search keyword.

8:a

wood cross!

9:Actions

speak louder than words

11:#woood

#

12:#woooooood

#

查询任意数字所在行。

[root@localhost ~]# grep -n [0-9][0-9]* test.txt

4:the

tongue is boneless but it breaks bones.12!

7:PI=3.141592653589793238462643383249901429

5)查找连续字符范围“”

在上面的示例中,我们使用“.”与“*”来设定零个到无限多个重复的字符,如果想要

限制一个范围内的重复的字符串该如何实现呢?例如,查找三到五个

o 的连续字符,这个时

候就需要使用基础正则表达式中的限定范围的字符“”。因为“”在

Shell 中具有特殊

意义,所以在使用“”字符时,需要利用转义字符“\\”,将“”字符转换成普通字符。

“”字符的使用方法如下所示。

(1)查询两个

o 的字符。

[root@localhost ~]# grep -n o\\2\\ test.txt

3:The

home of Football on BBC Sport online.

5:google

is the best tools for search keyword.

8:a

wood cross!

11:#woood

#

12:#woooooood

#

14:I

bet this place is really spooky late at night!

(2)查询以

w 开头以 d 结尾,中间包含 2~5 个 o 的字符串。

[root@localhost ~]# grep -n wo\\2,5\\d test.txt

8:a

wood cross!

11:#woood

#

(3)查询以

w 开头以 d 结尾,中间包含 2 以上 o 的字符串。

[root@localhost ~]# grep -n wo\\2,\\d test.txt

8:a

wood cross!

11:#woood

#

12:#woooooood

#

2.元字符总结

通过上面几个简单的示例,我们可以了解到常见的基础正则表达式的元字符主要包括以

下几个,基础正则表达式常见元字符

元字符 作用

^ 匹配输入字符串的开始位置。除非在方括号表达式中使用,表示不包含该字符集合。要匹配“^”

字符本身,请使用“\\^”

$ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline

属性,则“$”也匹配‘\\n’

或‘\\r’。要匹配“$”字符本身,请使用“\\$”

. 匹配除“\\r\\n”之外的任何单个字符

\\ 将下一个字符标记为特殊字符、原义字符、向后引用、八进制转义符。例如,‘n’匹配字符“n”。

‘\\n’匹配换行符。序列‘\\\\’匹配“\\”,而‘\\(’则匹配“(”

* 匹配前面的子表达式零次或多次。要匹配“*”字符,请使用“\\*”

[] 字符集合。匹配所包含的任意一个字符。例如,“[abc]”可以匹配“plain”中的“a”

[^] 赋值字符集合。匹配未包含的一个任意字符。例如,“[^abc]”可以匹配“plain”中“plin”

中的任何一个字母

[n1-n2] 字符范围。匹配指定范围内的任意一个字符。例如,“[a-z]”可以匹配“a”到“z”范围内的

任意一个小写字母字符。

注意:只有连字符(-)在字符组内部,并且出现在两个字符之间时,才能表示字符的范围;如

果出现在字符组的开头,则只能表示连字符本身

n n 是一个非负整数,匹配确定的 n

次。例如,“o2”不能匹配“Bob”中的“o”,但是能匹配“food”

中的两个 o

n, n 是一个非负整数,至少匹配 n

次。例如,“o2,”不能匹配“Bob”中的“o”,但能匹配“foooood”

中的所有

o。“o1,”等价于“o+”。“o0,”则等价于“o*”

n,m m 和 n 均为非负整数,其中 n<=m,最少匹配 n 次且最多匹配 m 次

扩展正则表达式

通常情况下会使用基础正则表达式就已经足够了,但有时为了简化整个指令,需要使用

范围更广的扩展正则表达式。例如,使用基础正则表达式查询除文件中空白行与行首为“#”

之外的行(通常用于查看生效的配置文件),执行“grep

–v‘^$’test.txt | grep –v

‘^#’”即可实现。这里需要使用管道命令来搜索两次。如果使用扩展正则表达式,可以简化

为“egrep

–v‘^$|^#’test.txt”,其中,单引号内的管道符号表示或者(or)。

此外,grep

命令仅支持基础正则表达式,如果使用扩展正则表达式,需要使用 egrep

或 awk

命令。awk 命令在后面的小节进行讲解,这里我们直接使用 egrep 命令。egrep 命令

与 grep

命令的用法基本相似。egrep 命令是一个搜索文件获得模式,使用该命令可以搜索

文件中的任意字符串和符号,也可以搜索一个或多个文件的字符串,一个提示符可以是单个

字符、一个字符串、一个字或一个句子

与基础正则表达式类型相同,扩展正则表达式也包含多个元字符,常见的扩展正则表达

式的元字符主要包括以下几个,如表

4-2 所示。

表 4-2

扩展正则表达式常见元字符

元字符 作用与示例

+ 作用:重复一个或者一个以上的前一个字符

示例:执行“egrep -n wo+d test.txt”命令,即可查询"wood"

"woood" "woooooood"等字符串

? 作用:零个或者一个的前一个字符

示例:执行“egrep -n bes?t test.txt”命令,即可查询“bet”“best”这两个字符串

| 作用:使用或者(or)的方式找出多个字符

示例:执行“egrep -n of|is|on

test.txt”命令即可查询"of"或者"if"或者"on"字符串

() 作用:查找“组”字符串

示例:“egrep -n t(a|e)st test.txt”。“tast”与“test”因为这两个单词的“t”与“st”是

重复的,所以将“a”与“e”列于“()”符号当中,并以“|”分隔,即可查询"tast"或者"test"字符串

()+ 作用:辨别多个重复的组

示例:“egrep -n A(xyz)+C

test.txt”。该命令是查询开头的"A"结尾是"C",中间有一个以上的

"xyz"字符串的意思


如:在2~50行 行首添加#号注释

:2,50 s/^/#/g


sed

sed 的工作流程主要包括读取、执行和显示三个过程。

Ø 读取:sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓

冲区中(又称模式空间,pattern space)。

Ø 执行:默认情况下,所有的 sed 命令都在模式空间中顺序地执行,除非指定了行的

地址,否则 sed 命令将会在所有的行上依次执行。

Ø 显示:发送修改后的内容到输出流。再发送数据后,模式空间将会被清空。

在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。

注意:默认情况下,所有的 sed 命令都是在模式空间内执行的,因此输入的文件并

不会发生任何变化,除非是用重定向存储输出。

1.sed 命令常见用法

通常情况下调用 sed 命令有两种格式,如下所示。其中,“参数”是指操作的目标文件,

当存在多个操作对象时用,文件之间用逗号“,”分隔;而 scriptfile 表示脚本文件,需要

用“-f”选项指定,当脚本文件出现在目标文件之前时,表示通过指定的脚本文件来处理输

入的目标文件。

sed[选项] 操作 参数

sed [选项] -f scriptfile 参数

常见的 sed 命令选项主要包含以下几种。

Ø -e 或--expression=:表示用指定命令或者脚本来处理输入的文本文件。

Ø -f 或--file=:表示用指定的脚本文件来处理输入的文本文件。

Ø -h 或--help:显示帮助。

Ø -n、--quiet 或 silent:表示仅显示处理后的结果。

Ø -i:直接编辑文本文件。

“操作”用于指定对文件操作的动作行为,也就是 sed 的命令。通常情况下是采用的

“[n1[,n2]]”操作参数的格式。n1、n2 是可选的,不一定会存在,代表选择进行操作的行

数,如操作需要在 5~20 行之间进行,则表示为“5,20 动作行为”。常见的操作包括以下

几种。

Ø a:增加,在当前行下面增加一行指定内容。

Ø c:替换,将选定行替换为指定内容。

Ø d:删除,删除选定的行。

Ø i:插入,在选定行上面插入一行指定内容。

Ø p:打印,如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内

容;如果有非打印字符,则以 ASCII 码输出。其通常与“-n”选项一起使用。

Ø s:替换,替换指定字符。

Ø y:字符转换。


输出所有匹配字符行

sed -n "/字符/p" 文件名

删除所有匹配字符行

sed -i "/字符/d" 文件名

将所有匹配字符替换成目标字符

sed -i "s/字符/目标字符/g" 文件名

将指定行的匹配字符替换成目标字符

sed -e 2s/xxxx/yyyy/4 yf.txt

注:这里的2,表示第2行。

??这里的3,表示表示每行第3次出现的。

将匹配字符开头行,中的bash改为false

ssh $i "sed -i /^hmsftp/ s#bash#false#

/etc/passwd"

在每行的前面添加“123”

sed -i "s/^/123/g" 文件名

在每行的行尾添加“abc”

sed -i "s/$/abc/g" 文件名

在匹配字符行的下方添加“abc”

sed -i "/88888/a\\abc" 文件名

在匹配字符行的上方添加“abc”

sed -i "/88888/i\\abc" 文件名

在第三行下面添加888888

 sed -i "3a\\888888:"

/opt/name.txt

=====================

Shell

正则表达式应用:grep

Shell

grep "0*" /etc/passwd 

“0”至少出现0次

grep "00*" /etc/passwd 

“0”至少出现1次

grep "000*" /etc/passwd “0”至少出现2次


grep [r09] /etc/passwd 包含中括号中的任意一个字符的内容都会出现

Shell

grep [^r09] /etc/passwd 不包含中括号中的任意一个字符的内容都会出现(取反)

Shell


grep "[0-9]\\2\\" /etc/passwd //匹配包含 0-9 数字,且有两位数的行,精确匹配。

grep "[0-9]\\2,\\" /etc/passwd  匹配包含 0-9 数字,且有两位数或两位数以上的行

grep "[0-9]\\1,3\\" /etc/passwd 配包含

0-9 数字。且出现过1次2次或者3次都可以。精确匹配。


egrep -v "^$|^#" /etc/vsftpd/vsftpd.conf 把空白行或者#号开头的去掉。

Shell


Egrep (xyz)+

passwd

Shell


Shell



-----------输出相关----------

sed -n 6p passwd  将文件中的第6行输出。

sed -n 6,8p passwd 将文件中的第6到第8行输出。

sed -n 6p;8p passwd 将文件中的第6和第8行输出

sed -n p;n passwd  将文件中的奇数行输出

sed -n n;p passwd  将文件中的偶数行输出

sed -n 1,10n;p passwd 将文件中1-10行中的偶数行输出

sed -n 1,10p;n passwd 将文件中1-10行中的奇数行输出

sed -n $p passwd 将文件中最后一行输出。

sed -n /root/= passwd 将文件中包含root的行号输出

sed  5q passwd 输出文件的前5行信息后退出

--------------插入相关------------

 sed /root/i I AM OK passwd 在包含root的行前面插入内容。

 sed /root/a I AM OK passwd 在包含root的行后面插入内容。

sed 15a HHHHHHHHH passwd 在15行后面插入内容

-------删除相关------------指的是视图,临时数据删除,不会动用原文件    


sed 1d passwd 删除第一行

sed 4,7d passwd 删除4到7行

 sed $d passwd  删除最后一行

 sed /^$/d passwd 删除空行

sed /root/d passwd 删除带有root的行

sed /^root/d passwd 删除以root开头的行

sed /root$/d passwd 删除以root结尾的行

sed /nologin$/!d bb.txt 删除不以nologin结尾的行

-------替换相关------

sed s/root//g passwd 把所有root替换成空

sed 1,3s/root//g

passwd 把1-3行的root替换成空

sed /root/c HHHHH passwd 把含有root的行替换成指定字符

------如果要修改文件内容就加一个i参数----

sed -i s/enforcing/disabled/ /etc/sysconfig/selinux



替换符合条件的文本

在使用 sed

命令进行替换操作时需要用到 s(字符串替换)、c(整行/整块替换)、y(字

符转换)命令选项,常见的用法如下所示。

sed

s/the/THE/ test.txt //将每行中的第一个 the 替换为 THE

sed

s/l/L/2 test.txt //将每行中的第 3 个 l 替换为 L

sed

s/the/THE/g test.txt //将文件中的所有 the 替换为 THE

sed

s/o//g test.txt //将文件中的所有 o 删除(替换为空串)

sed

s/^/#/ test.txt //在每行行首插入#号

sed

/the/s/^/#/ test.txt //在包含 the 的每行行首插入#号

sed

s/$/EOF/ test.txt //在每行行尾插入字符串 EOF

sed

3,5s/the/THE/g test.txt //将第 3~5 行中的所有 the 替换为 THE

sed

/the/s/o/O/g test.txt //将包含 the 的所有行中的 o 都替换为 O

4)迁移符合条件的文本

其中,H,复制到剪贴板;g、G,将剪贴板中的数据覆盖/追加至指定行;w,保存为文

件;r,读取指定文件;a,追加指定内容。

sed

/the/H;d;$G test.txt //将包含the 的行迁移至文件末尾,;用于多个操作

sed

1,5H;d;17G test.txt //将第 1~5 行内容转移至第 17 行后

sed

/the/w out.file test.txt //将包含 the 的行另存为文件 out.file

sed

/the/r /etc/hostname test.txt //将文件/etc/hostname 的内容添加到

//包含

the 的每行以后

sed

3aNew test.txt //在第 3 行后插入一个新行,内容为 New

sed

/the/aNew test.txt //在包含 the 的每行后插入一个新行,内容为 New

sed

3aNew1\\nNew2 test.txt //在第 3 行后插入多行内容,中间的\\n 表示换行


-----------AWK相关-处理列-------


Shell

Shell

Shell

Shell

Shell


awk 工具

Linux/UNIX 系统中,awk 是一个功能强大的编辑工具,逐行读取输入文本,并根据

指定的匹配模式进行查找,对符合条件的内容进行格式化输出或者过滤处理,可以在无交互

的情况下实现相当复杂的文本操作,被广泛应用于

Shell 脚本,完成各种自动化配置任务。

1.awk

常见用法

通常情况下

awk 所使用的命令格式如下所示,其中,单引号加上大括号“”用于设置

对数据进行的处理动作。awk

可以直接处理目标文件,也可以通过“-f”读取脚本对目标文

件进行处理。

awk 选项

模式或条件 编辑指令 文件 1 文件 2 „ //过滤并输出文件符条件的内容

awk -f

脚本文件 文件 1 文件 2 „ //从脚本中调用编辑指令,过滤并输出内容

前面提到

sed 命令常用于一整行的处理,而 awk 比较倾向于将一行分成多个“字段”然

后再进行处理,且默认情况下字段的分隔符为空格或者

tab 键。awk 执行结果可以通过 print

的功能将字段数据打印显示。在使用

awk 命令的过程中,可以使用逻辑操作符“&&”,表示“与”,

“||”表示“或”,“!”表示“非”;还可以进行简单的数学运算,如+、-、*、/、%、^分别

表示加、减、乘、除、取余和乘方。

在 Linux

系统中/etc/passwd 是一个非常典型的格式化文件,各字段间使用“:”作为

分隔符隔开,Linux

系统中的大部分日志文件也是格式化文件,从这些文件中提取相关信息

是运维的日常工作内容之一。若需要查找出/etc/passwd

的用户名、用户 ID、组 ID 等列,

执行以下

awk 命令即可。

[root@localhost ~]# awk -F : print $1,$3,$4

/etc/passwd

root 0

0

bin 1 1

daemon

2 2

„„//省略部分内容

awk

从输入文件或者标准输入中读入信息,与 sed 一样,信息的读入也是逐行读取的。

不同的是

awk 将文本文件中的一行视为一个记录,而将一行中的某一部分(列)作为记录中

的一个字段(域)。为了操作这些不同的字段,awk

借用 shell 中类似于位置变量的方法,

用$1、$2、$3„顺序地表示行(记录)中的不同字段。另外

awk 用$0 表示整个行(记录)。

不同的字段之间是通过指定的字符分隔。awk

默认的分隔符是空格。awk 允许在命令行中用

“-F

分隔符”的形式来指定分隔符。因此,上述示例中,awk 命令对/etc/passwd 文件的处

理过程如图

4.1 所示。

图 4.1

awk 工作原理图

awk

包含几个特殊的内建变量(可直接用)如下所示:

Ø FS:指定每行文本的字段分隔符,默认为空格或制表位。

Ø NF:当前处理的行的字段个数。

Ø NR:当前处理的行的行号(序数)。

Ø $0:当前处理的行的整行内容。

Ø $n:当前处理行的第 n 个字段(第 n 列)。

Ø FILENAME:被处理的文件名。

Ø RS:数据记录分隔,默认为\\n,即每行为一条记录。

2.用法示例

1)按行输出文本

awk

print test.txt //输出所有内容,等同于 cat test.txt

awk

print $0 test.txt //输出所有内容,等同于 cat test.txt

awk

NR==1,NR==3print test.txt //输出第 1~3 行内容

awk

(NR>=1)&&(NR<=3)print test.txt //输出第 1~3 行内容

awk

NR==1||NR==3print test.txt //输出第 1 行、第 3 行内容

awk

(NR%2)==1print test.txt //输出所有奇数行的内容

awk

(NR%2)==0print test.txt //输出所有偶数行的内容

awk

/^root/print /etc/passwd //输出以 root 开头的行

awk

/nologin$/print /etc/passwd//输出以 nologin 结尾的行

awk

BEGIN x=0 ; /\\/bin\\/bash$/x++;END print x /etc/passwd

//统计以/bin/bash

结尾的行数,等同于 grep -c "/bin/bash$" /etc/passwd

awk

BEGINRS="";ENDprint NR /etc/squid/squid.conf

//统计以空行分隔的文本段落数

2)按字段输出文本

awk

print $3 test.txt //输出每行中(以空格或制表位分隔)的第 3 个字段

awk

print $1,$3 test.txt //输出每行中的第 1、3 个字段

awk -F

":" $2==""print /etc/shadow //输出密码为空的用户的 shadow 记录

awk

BEGIN FS=":"; $2==""print /etc/shadow

//输出密码为空的用户的

shadow 记录

awk -F

":" $7~"/bash"print $1 /etc/passwd

//输出以冒号分隔且第

7 个字段中包含/bash 的行的第 1 个字段

awk

($1~"nfs")&&(NF==8)print $1,$2 /etc/services

//输出包含

8 个字段且第 1 个字段中包含 nfs 的行的第 1、2 个字段

awk -F

":"

($7!="/bin/bash")&&($7!="/sbin/nologin")print

/etc/passwd

//输出第 7

个字段既不为/bin/bash 也不为/sbin/nologin 的所有行

3)通过管道、双引号调用 Shell 命令

awk -F:

/bash$/print | "wc -l" /etc/passwd

//调用 wc

-l 命令统计使用 bash 的用户个数,等同于 grep -c "bash$" /etc/passwd

awk

BEGIN while ("w" | getline) n++ ; print n-2

 //调用 w 命令,并用来统计在线用户数

awk

BEGIN "hostname" | getline ; print $0

 //调用 hostname,并输出当前的主机名

4.2.3

sort 工具

在 Linux

系统中,常用的文件排序工具有三种:sort、uniq、wc 。本章将介绍前两种

工具的用法。

sort

是一个以行为单位对文件内容进行排序的工具,也可以根据不同的数据类型来排

序。例如数据和字符的牌局就不一样。sort

命令的语法为“sort [选项] 参数”,其中常用

的选项包括以下几种。

Ø -f:忽略大小写;

Ø -b:忽略每行前面的空格;

Ø -M:按照月份进行排序;

Ø -n:按照数字进行排序;

Ø -r:反向排序;

Ø -u:等同于 uniq,表示相同的数据仅显示一行;

Ø -t:指定分隔符,默认使用[Tab]键分隔;

Ø -o <输出文件>:将排序后的结果转存至指定文件;

Ø -k:指定排序区域。

uniq 工具

Uniq

工具在 Linux 系统中通常与 sort 命令结合使用,用于报告或者忽略文件中的重复

行。具体的命令语法格式为:uniq

[选项] 参数。其中常用选项包括以下几种。

Ø

-c:进行计数;

Ø

-d:仅显示重复行;

删除

testfile 文件中的重复行,并在行首显示该行重复出现的次数。

[root@localhost

~]# uniq -c testfile

 1 Linux 10

 1 Linux 20

 3 Linux 30

 3 CentOS 6.5

 3 CentOS 7.3

示例 3:查找

testfile 文件中的重复行。

[root@localhost

~]# uniq -d testfile

Linux

30

CentOS

6.5

CentOS

7.


---------------一个小例子-----------

#!/bin/bash

#

SPACE=`df | sed -ne /\\/$/ p | awk print $5 | sed s/%//`

if [ $SPACE -ge 90 ]

then

        echo "磁盘空间不足!"

else

        echo "OK!"

fi

…….

0--------grep小例子---


#!/bin/bash

#


#!/bin/bash

#

SPACE=`df | grep "/$" | awk print $5 | awk -F% print

$1`

if [ $SPACE -ge 5 ]

then

        echo "当前磁盘使用率是:$SPACE%"

        echo "磁盘空间不足!"

else

        echo "OK!"

fi



-----------以下是编程实战--------------


#!/bin/bash

#此脚本用于显示进程数,登录的用户数与用户名,根分区的磁盘使用率

echo "已开启进程数:$(($(ps

aux | wc -l)-1))"

echo "已登录用户数:$(who

| wc -l)"

echo "已登录的用户帐户:$(who

| awk print$1)"

echo "根分区磁盘使用率:$(df

-h | grep "/$" | awk print$5)"



-------------以下是MAC与端口扫描----注意:arping不可以测试自己---

#!/bin/bash

#定义网段地址、MAC列表文件

NADD=192.168.80.

FILE="/etc/ethers"

#发送ARP请求,并记录反馈结果

[ -f $FILE ] && /bin/cp -f $FILE $FILE.old

HADD=1

while [ $HADD -le 254 ]

do

        arping -c2 -w1

$NADD$HADD &> /dev/null

        if [ $? -eq 0 ];then

        arp -n | grep

$NADD$HADD | awk print $1,$3 >> $FILE

        fi

        let HADD++

done


TARGET=$(awk print $1 /etc/ethers)

echo "以下主机已开放匿名FTP服务:"

for IP in $TARGET

do

        wget ​​ftp://$IP/​​ &> /dev/null

          if [ $? -eq 0 ]

                then echo

"$IP开启了匿名FTP"

rm -f index.*

          fi

done


--------------------以下是系统监控--------

#!/bin/bash

#提取性能监控指标(磁盘占用、CPU占用、内存使用)

DUG=$(df -h | grep "/$" | awk print $5 | awk -F%

print $1)

echo "当前的根分区的空间使用率是:$DUG%"

CUG=$(expr 100 - $(mpstat | tail -1 | awk print $12 | awk -F.

print $1))

echo "当前的CPU使用率是:$CUG%"

MUG=$(expr $(free | grep "Mem:" | awk print $3) \\* 100

/ $(free | grep "Mem:" | awk print $2))

echo "当前的内存使用率是:$MUG%"


ALOG="/tmp/alert.txt"

AMAIL="root@localhost"

#判断是否记录警告

if [ $DUG -gt 7 ]

        then echo "磁盘占用率:$DUG%" >> $ALOG

fi


if [ $CUG -gt 80 ]

        then

                echo "CPU使用率:$CUG%" >> $ALOG

fi


if [ $MUG -gt 90 ]

        then echo "内存使用率:$MUG%" >> $ALOG

fi


if [ -f $ALOG ]

        then echo "有事儿了!"

ping -c10 127.0.0.1 &> /dev/null &&

rm -f $ALOG

fi


---------

===========================================

==================================================================================




以上是关于Shell 编程之正则表达式与文件处理器的主要内容,如果未能解决你的问题,请参考以下文章

shell编程之正则表达式与文本处理器

Shell编程之正则表达式

Shell编程之正则表达式三剑客——grep,egrep

Shell编程之正则表达式(sed)

05 shell编程之正则表达式

shell脚本之正则表达式