linux基础学习第二十二天之AWK详解

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了linux基础学习第二十二天之AWK详解相关的知识,希望对你有一定的参考价值。

内容:

1、awk输出(print、printf)

2、awk变量(内建变量和定义变量)

3、awk数组

4、awk重定向输出

5、awk操作符

6、awk常见模式类型

7、awk控制及循环语句

8、awk内置函数


awk:(其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母)

awk是一款强大的报告生成器,不同于sed和grep,它的侧重点是如何把文本信息更好的展示出来,常用与统计和格式化输出。

awk相当于微型的shell,有着自己一套语法结构,例如:循环结构,数组,条件判断,函数,内置变量等功能。处理对象一般纯文本文件或纯文本信息。

在linux中用的GUN是gawk,和awk其实是同一个命令:

[19:48 [email protected]~]# ll /bin/awk 
lrwxrwxrwx. 1 root root 4 Jul 20 02:11 /bin/awk -> gawk

语法:

awk [options] ‘script‘ file1 file2, ...

awk [options] ‘PATTERN { action }‘ file1 file2, ...:两条语法等价,上面的脚本可分为两部分,模式和动作,注意action要用{}引起来

-F:指定分割符

处理过程:
逐行读取,然后按照一定的分割符(默认空格)把该行内容进行内容分片,称为字段,每一个字段内容用$1,$2..表示,$0表示该整行,此外在awk中打印变量不需要$引用
Awk的工作方式:
1)Awk 一次读取文件中的一行
2)对于一行,按照给定的pattern的顺序进行匹配,如果匹配则执行对应的 Action
3)如果没有匹配上则不执行任何动作
4)在上诉的语法中,Pattern 和 Action 是可选的,但是必须提供其中一个
5)如果Pattern未提供,则对所有的输入行执行 Action 操作
6)如果 Action 未提供,则默认打印出该行的数据
7){} 这种 Action 不做任何事情,和未提供的 Action 的工作方式不一样
8)Action 中的语句应该使用分号分隔

工作步骤:

第一步:执行BEGIN{action;… }语句块中的语句【在读取文件前就开始打印,所以后面可以不加文件作为参数】

第二步:从文件或标准输入(stdin)读取一行,然后执行pattern{ action;… }语句块,它逐行扫描文件,从第一行到最后一行重复这个过程,直到文件全部被读取完毕。

第三步:当读至输入流末尾时,执行END{action;…}语句块【后面也要加上文件作为参数】

BEGIN语句块在awk开始从输入流中读取行之前被执行,这是一个可选的语句块,比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中

END语句块在awk从输入流中读取完所有的行之后即被执行,比如打印所有行的分析结果这类信息汇总都是在END语句块中完成,它也是一个可选语句块

pattern语句块中的通用命令是最重要的部分,也是可选的。如果没有提供pattern语句块,则默认执行{ print },即打印每一个读取到的行,awk读取的每一行都会执行该语句块

一、常用输出说明:

1、print:

print item1, item2,...

.各项目之间使用逗号分隔,而输出时则使用输出分隔符分隔

.输出的各item可以字符串或数值、当前记录的字段、变量或awk的表达式,数值会被隐式转换为字符串后输出

.与bash的位置变量相似 print后面item如果省略,相当于print $0,若输出空白,使用pirnt ""

演示说明:

[19:17 [email protected]~]# awk -F: ‘{print $1,$3}‘ /etc/passwd
root 0
bin 1
daemon 2
adm 3
lp 4
sync 5
shutdown 6
halt 7
mail 8
uucp 10
operator 11
games 12
gopher 13
[19:34 [email protected]~]# awk -F: ‘{print $1,$3,$7}‘ /etc/passwd
root 0 /bin/bash
bin 1 /sbin/nologin
daemon 2 /sbin/nologin
adm 3 /sbin/nologin
lp 4 /sbin/nologin
sync 5 /bin/sync
shutdown 6 /sbin/shutdown
halt 7 /sbin/halt
mail 8 /sbin/nologin
uucp 10 /sbin/nologin
operator 11 /sbin/nologin
games 12 /sbin/nologin
gopher 13 /sbin/nologin


2、printf:带格式的输出

语法:printf format, item1, item2,...

说明:

.要指定format

.不会自动换行;如需换行则需要给出\n

.format用于为后面的每个item指定其输出格式

format格式的指示符都以%开头,后跟一个字符;如下:

%c: 显示字符的ASCII码;

%d, %i:十进制整数;

%e, %E:科学计数法显示数值;

%f: 显示浮点数;

%g, %G: 以科学计数法的格式或浮点数的格式显示数值;

%s: 显示字符串;

%u: 无符号整数;

%%: 显示%自身;

修饰符:

N: 显示宽度;

-: 左对齐;

+:显示数值符号;


演示说明:

[19:35 [email protected]~]# awk -F: ‘{printf "%s%d",$1,$3}‘ /etc/passwd
root0bin1daemon2adm3lp4sync5shutdown6halt7mail8uucp10operator11games12gopher13ftp14nobody99dbus81usbmuxd113rpc32rtkit499avahi-autoipd170vcsa69abrt173rpcuser29nfsnobody65534haldaemon68ntp38apache48saslauth498postfix89mysql27gdm42pulse497sshd74tcpdump72hill500nihao501[19:36 [email protected]~]# awk -F: ‘{printf "%s%d\n",$1,$3}‘ /etc/passwd
[19:36 [email protected]~]# awk -F: ‘{printf "%s%d\n",$1,$3}‘ /etc/passwd
root0
bin1
daemon2
adm3
lp4
sync5
shutdown6
halt7
mail8
uucp10
operator11
games12
gopher13
[19:36 [email protected]~]# awk -F: ‘{printf "%-20s%-10s\n",$1,$3}‘ /etc/passwd
root                0         
bin                 1         
daemon              2         
adm                 3         
lp                  4         
sync                5         
shutdown            6         
halt                7         
mail                8         
uucp                10        
operator            11        
games               12        
gopher              13


二、awk变量

1、awk内置变量之记录变量:

FS: field separator,读取文件本时,所使用字段分隔符;

RS: Record separator,输入文本信息所使用的换行符;

OFS: Output Filed Separator: 

ORS:Output Row Separator:

演示说明:

[19:42 [email protected]~]# awk ‘BEGIN{FS=":"}{print $1,$3}‘ /etc/passwd
root 0
bin 1
daemon 2
adm 3
lp 4
sync 5
shutdown 6
halt 7
mail 8
uucp 10
operator 11
games 12
gopher 13

[19:43 [email protected]~]# awk ‘BEGIN{FS=":";OFS="#"}{print $1,$3}‘ /etc/passwd
root#0
bin#1
daemon#2
adm#3
lp#4
sync#5
shutdown#6
halt#7
mail#8
uucp#10
operator#11
games#12
gopher#13


2、awk内置变量之数据变量:

NR: The number of input records,awk命令所处理的记录数;如果有多个文件,这个数目会把处理的多个文件中行统一计数;

NF:Number of Field,当前记录的field个数;

FNR: 与NR不同的是,FNR用于记录正处理的行是当前这一文件中被总共处理的行数;

ARGV: 数组,保存命令行本身这个字符串,如awk ‘{print $0}‘ a.txt b.txt这个命令中,ARGV[0]保存awk,ARGV[1]保存a.txt;

ARGC: awk命令的参数的个数;

FILENAME: awk命令所处理的文件的名称;

ENVIRON:当前shell环境变量及其值的关联数组;

演示说明:

[19:45 [email protected]~]# awk -F: ‘{print NR,$1}‘ /etc/issue /etc/passwd #NR统计所有文件的总行数
1 CentOS release 6.8 (Final)
2 Kernel \r on an \m
3 $(hostname)
4 `date`
5 root
6 bin
7 daemon
8 adm
9 lp
10 sync
11 shutdown
12 halt
13 mail
14 uucp
15 operator
16 games
17 gopher

[19:48 [email protected]~]# awk  ‘{print NF,$1}‘ /etc/issue #显示每一行的字段个数
4 CentOS
5 Kernel
1 $(hostname)
1 `date`


3、用户自定义变量

可以命令行中通过-v选项自定义变量

gawk允许用户自定义自己的变量以便在程序代码中使用,变量名命名规则与大多数编程语言相同,只能使用字母、数字和下划线,且不能以数字开头。gawk变量名称区分字符大小写。

演示说明:

[19:52 [email protected]~]# awk -F: -v A="nihao" ‘{print A,$1}‘ /etc/passwd  #同时也证明了变量的引用不需要$引用
nihao root
nihao bin
nihao daemon
nihao adm
nihao lp
nihao sync
nihao shutdown
nihao halt
nihao mail
nihao uucp
nihao operator
nihao games
nihao gopher

三、awk数组

定义方法

1:可以用数值作数组索引(下标)

array[1]=“hello awk”

Tarray[2]=“9527”

2:可以用字符串作数组索引(下标)

array[“first”]=“hello ”

array[“last”]=”awk”

array[“birth”]=”9527”

使用中 print array[1] 将得到”hello awk” 而 print array[2] 和 print[“birth”] 都将得到 ”9527” 。

例子:

split(string, array [, fieldsep [, seps ] ])

功能:将string表示的字符串以fieldsep为分隔符进行分隔,并将分隔后的结果保存至array为名的数组中

[16:44 [email protected]~]#awk ‘BEGIN{info="it is a test";split(info,tA," ");for(k in tA){print k,tA[k];}}‘
4 test
1 it
2 is
3 a

for…in 输出,因为数组是关联数组,默认是无序的。所以通过for…in 得到是无序的数组。如果需要得到有序数组,需要通过下标获得。

[16:49 [email protected]~]# awk ‘BEGIN{info="it is a test";tlen=split(info,tA," ");for(k=1;k<=tlen;k++){print k,tA[k];}}‘ 
1 it
2 is
3 a
4 test

过滤重复选项用法(利用真假判断):

[11:14 [email protected]~]# cat test 
1.1.1.1,1aaa
1.1.1.1,1bbb
1.1.1.1,1ccc
2.2.2.2,2aaa
2.2.2.2,2bbb
3.3.3.3,3aaa
[11:14 [email protected]~]# awk -F"," ‘!arry[$1]++‘ test 
1.1.1.1,1aaa
2.2.2.2,2aaa
3.3.3.3,3aaa

四、输出重定向

print items > output-file:保存到文件

print items >> output-file:追加到文件

print items | command:使用管道交给某些命令处理

演示说明:

[20:02 [email protected]~]# awk -F: -v A="nihao" ‘{print A,$1 > "/root/awktest"}‘ /etc/passwd
[20:03 [email protected]~]# cat awktest 
nihao root
nihao bin
nihao daemon
nihao adm
nihao lp
nihao sync
nihao shutdown
nihao halt
nihao mail
nihao uucp
nihao operator
nihao games
nihao gopher


五、awk操作符

1、算术操作符:

-x: 负值

+x: 转换为数值;

x^y: 

x**y: 次方

x*y: 乘法

x/y:除法

x+y:

x-y:

x%y:


2、赋值操作符:

=

+=

-=

*=

/=

%=

^=

**=

++

--

演示说明:

[21:41 [email protected]~]# awk ‘{ x+=$2+$3 }{print $0,x}‘ test 
3 5 6 7 11
2 3 1 0 15
4 5 6 9 26
2 3 4 4 33
2 2 1 0 36
4 5 0 9 41
[21:41 [email protected]~]# cat test 
3 5 6 7
2 3 1 0
4 5 6 9
2 3 4 4
2 2 1 0
4 5 0 9


需要注意的是,如果某模式为=号,此时使用/=/可能会有语法错误,应以/[=]/替代;

3、比较操作符

x < y

x <= y

x > y

x >= y

x == y

x != y

x ~ y

x !~ y

4、逻辑关系符

&&

||

5、三目表示式

selector?if-true-exp:if-false-exp

6、函数调用:

function_name (para1,para2)

演示说明:

判断UID是否大于等于500,如果为真就显示“common user”,如果为假就显示“system user”

[20:10 [email protected]~]# awk -F: ‘{$3<500?A="system user":A="common user"}{print $1,A}‘ /etc/passwd #三目操作表达式
root system user
bin system user
daemon system user
adm system user
lp system user
sync system user
shutdown system user
halt system user
mail system user
uucp system user
operator system user
games system user
gopher system user


六、常见的模式类型:

1、Regexp: 正则表达式,格式为/regular expression/

2、expresssion: 表达式,其值非0或为非空字符时满足条件,如:$1~/foo/【非精准匹配】或 $1 == "VALUE"【精准匹配】,用运算符~(匹配)和!~(不匹配)。

3、Ranges: 指定的匹配范围,格式为pat1,pat2

4、BEGIN/END:特殊模式,仅在awk命令执行前运行一次或结束前运行一次(常用作标题和结尾说明)

5、Empty(空模式):匹配任意输入行;

演示说明:

[20:11 [email protected]~]# awk -F: ‘/^r/{print $1,$3}‘ /etc/passwd #正则表达式使用
root 0
rpc 32
rtkit 499
rpcuser 29

[20:16 [email protected]~]# awk -F: ‘BEGIN{print "TEST BEGIN"}/^r/{print $1,$3}END{print "TEST OVER"}‘ /etc/passwd #BEGIN和END的使用演示
TEST BEGIN
root 0
rpc 32
rtkit 499
rpcuser 29
TEST OVER


七、控制语句

if-else

语法:if (condition) {then-body} else {[ else-body ]}

演示说明:

[10:10 [email protected]~]# df -P
Filesystem                   1024-blocks    Used Available Capacity Mounted on
/dev/mapper/VolGroup-lv_root    51475068 2740208  46113420       6% /
tmpfs                            1954768       0   1954768       0% /dev/shm
/dev/sda1                         487652   40654    421398       9% /boot
/dev/mapper/VolGroup-lv_home    10190136   36884   9628968       1% /home
[10:11 [email protected]~]# df -P|awk ‘{i=$5+0;if (i > 5){print $1,$5}}‘
/dev/mapper/VolGroup-lv_root 6%
/dev/sda1 9%

注意:$N+0可以把$N强制去整数形式


[20:24 [email protected]~]# awk -F: ‘{if ($3<500) {print $1,"systemm user"} else {print $1,"common user"}}‘ /etc/passwd
root systemm user
bin systemm user
daemon systemm user
adm systemm user
lp systemm user
sync systemm user
shutdown systemm user
halt systemm user
mail systemm user
uucp systemm user
operator systemm user
games systemm user
gopher systemm user

while

语法: while (condition){statement1; statment2; ...}

[20:24 [email protected]~]# awk -F: ‘{i=1;while (i<=3) {print $i;i++}}‘ /etc/passwd #每个的前三个字段逐行打印
root
x
0
bin
x
1
daemon
x
2
adm
x
3
lp
x
4
sync
x
5
shutdown
x
6
halt
x
7
mail
x
8
uucp
x
10
operator
x
11
games
x
12
gopher
x
13

for

语法: for ( variable assignment; condition; iteration process) { statement1, statement2, ...}

演示说明:

[20:25 [email protected]~]# awk -F: ‘{for(i=1;i<=3;i++) print $i}‘ /etc/passwd
root
x
0
bin
x
1
daemon
x
2
adm
x
3
lp
x
4
sync
x
5
shutdown
x
6
halt
x
7
mail
x
8
uucp
x
10
operator
x
11
games
x
12
gopher
x
13


for循环还可以用来遍历数组元素:

语法: for (i in array) {statement1, statement2, ...}


case

语法:switch (expression) { case VALUE or /REGEXP/: statement1, statement2,... default: statement1, ...}


break 和 continue

常用于循环或case语句中


next

提前结束对本行文本的处理,并接着处理下一行;例如,下面的命令将显示其ID号为奇数的用户:

演示说明:

[20:29 [email protected]~]# awk -F: ‘{if($3%2==0) next;print $1,$3}‘ /etc/passwd
bin 1
adm 3
sync 5
halt 7
operator 11
gopher 13


八、awk的内置函数

split(string, array [, fieldsep [, seps ] ])

功能:将string表示的字符串以fieldsep为分隔符进行分隔,并将分隔后的结果保存至array为名的数组中


length([string])

功能:返回string字符串中字符的个数;

[20:35 [email protected]~]# awk -F: ‘{print $1,length($1)}‘ /etc/passwd
root 4
bin 3
daemon 6
adm 3
lp 2
sync 4
shutdown 8
halt 4
mail 4
uucp 4
operator 8
games 5
gopher 6

substr(string, start [, length])

功能:取string字符串中的子串,从start开始,取length个;start从1开始计数;

system(command)

功能:执行系统command并将结果返回至awk命令

systime()

功能:取系统当前时间,默认显示秒

[20:30 [email protected]~]#awk -F: ‘{print $1,systime()}‘ /etc/passwd
root 1472992355
bin 1472992355
daemon 1472992355
adm 1472992355
lp 1472992355
sync 1472992355
shutdown 1472992355
halt 1472992355
mail 1472992355
uucp 1472992355
operator 1472992355
games 1472992355
gopher 1472992355


tolower(s)

功能:将s中的所有字母转为小写

toupper(s)

功能:将s中的所有字母转为大写

[20:33 [email protected]~]# awk -F: ‘{print $1,toupper($7)}‘ /etc/passwd
root /BIN/BASH
bin /SBIN/NOLOGIN
daemon /SBIN/NOLOGIN
adm /SBIN/NOLOGIN
lp /SBIN/NOLOGIN
sync /BIN/SYNC
shutdown /SBIN/SHUTDOWN
halt /SBIN/HALT
mail /SBIN/NOLOGIN
uucp /SBIN/NOLOGIN
operator /SBIN/NOLOGIN
games /SBIN/NOLOGIN
gopher /SBIN/NOLOGIN



本文出自 “6638225” 博客,转载请与作者联系!

以上是关于linux基础学习第二十二天之AWK详解的主要内容,如果未能解决你的问题,请参考以下文章

Linux课程第二十二天学习笔记

linux基础学习第二十三天linux安全和加密之SSLTLS协议CAopenssl

二刷java基础第二十二天——反射

学习python课程第二十二天

Mysql基础第二十二天,插入数据

(89)Wangdao.com第二十二天_JavaScript DocumentFragment 节点