AWK
Posted jayhenry7
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了AWK相关的知识,希望对你有一定的参考价值。
------ awk:报表生成器,格式化文本输出
gawk:模式扫描和处理语言
基本用法:
awk [options] ‘program‘ var=value file…
awk [options] -f programfile var=value file…
awk [options] ‘BEGINaction;… patternaction;… ENDaction;… ‘ file ...
awk 程序可由:BEGIN语句块、能够使用模式匹配的通用语句块、END语句
块,共3部分组成
program 通常是被放在单引号中
选项:
-F “分隔符” 指明输入时用到的字段分隔符
-v var=value 变量赋值
awk语言
?基本格式:awk [options] ‘program‘ file…
?Program:patternaction statements;..
?pattern和action
• pattern部分决定动作语句何时触发及触发事件
BEGIN,END
• action statements对数据进行处理,放在内指明
print, printf
?分割符、域和记录
• awk执行时,由分隔符分隔的字段(域)标记$1,$2...$n称为域标识。$0
为所有域,注意:此时和shell中变量$符含义不同
• 文件的每一行称为记录
• 省略action,则默认执行 print $0 的操作
awk工作原理
?第一步:执行BEGINaction;… 语句块中的语句 打印表头
?第二步:从文件或标准输入(stdin)(支持管道)读取一行,然后执行pattern action;… 语句块,
它逐行扫描文件,从第一行到最后一行重复这个过程,直到文件全部被读取完毕。
?第三步:当读至输入流末尾时,执行ENDaction;…语句块
?BEGIN语句块在awk开始从输入流中读取行之前被执行,这是一个可选的语句块,
比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中
?END语句块在awk从输入流中读取完所有的行之后即被执行,比如打印所有行的
分析结果这类信息汇总都是在END语句块中完成,它也是一个可选语句块(统计)
?pattern语句块中的通用命令是最重要的部分,也是可选的。如果没有提供
pattern语句块,则默认执行 print ,即打印每一个读取到的行,awk读取的每
一行都会执行该语句块
awk变量
? 变量:内置和自定义变量
? FS:输入字段分隔符,默认为空白字符 awk -v FS=‘:‘ ‘print $1,FS,$3’ /etc/passwd awk –F: ‘print $1,$3,$7’ /etc/passwd
? OFS:输出字段分隔符,默认为空白字符 awk -v FS=‘:’ -v OFS=‘:’ ‘print $1,$3,$7’ /etc/passwd
? RS:输入记录分隔符,指定输入时的换行符 awk -v RS=‘ ‘ ‘print ’ /etc/passwd
? ORS:输出记录分隔符,输出时用指定符号代替换行符 awk -v RS=‘ ‘ -v ORS=‘###‘‘print ’ /etc/passwd
? NF:字段数量 awk -F:‘print NF’ /etc/fstab 引用变量时,变量前不需加$ awk -F:‘print $(NF-1)‘ /etc/passwd
? NR:记录号
awk ‘print NR’ /etc/fstab ; awk END‘print NR’ /etc/fstab
下次引用变量
引用第一行shell 变量
取出使用率
printf命令
? 格式化输出:printf “FORMAT”, item1, item2, ...
(1) 必须指定FORMAT
(2) 不会自动换行,需要显式给出换行控制符,\\n
(3) FORMAT中需要分别为后面每个item指定格式符
? 格式符:与item一一对应
%c:显示字符的ASCII码
%d, %i:显示十进制整数
%e, %E:显示科学计数法数值
%f:显示为浮点数
%g, %G:以科学计数法或浮点形式显示数值
%s:显示字符串
%u:无符号整数
%%:显示%自身
? 修饰符
#[.#] 第一个数字控制显示的宽度;第二个#表示小数点后精度,%3.1f
- 左对齐(默认右对齐) %-15s
+ 显示数值的正负符号 %+d
++i (i=i+1)
哪个在前先算哪个
操作符
?算术操作符:
x+y, x-y, x*y, x/y, x^y, x%y
- x:转换为负数
+x:将字符串转换为数值
?字符串操作符:没有符号的操作符,字符串连接
?赋值操作符:
=, +=, -=, *=, /=, %=, ^=,++, --
?下面两语句有何不同
• awk ‘BEGINi=0;print ++i,i’
• awk ‘BEGINi=0;print i++,i’操作符
?比较操作符:
==, !=, >, >=, <, <=
?模式匹配符:
~:左边是否和右边匹配,包含
print格式:print item1, item2, ...
省略item,相当于print $0
!~:是否不匹配
?示例:
awk -F: ‘$0 ~ /root/print $1‘ /etc/passwd
awk ‘$0~“^root"‘ /etc/passwd
awk ‘$0 !~ /root/‘ /etc/passwd
awk -F: ‘$3==0’ /etc/passwd操作符
?逻辑操作符:与&&(与运算,注意不是短路与),或||,非!
?示例:
• awk -F: ‘$3>=0 && $3<=1000 print $1‘ /etc/passwd
• awk -F: ‘$3==0 || $3>=1000 print $1‘ /etc/passwd
• awk -F: ‘!($3==0) print $1‘ /etc/passwd
• awk -F: ‘!($3>=500) print $3’ /etc/passwd
?条件表达式(三目表达式)
selector?if-true-expression:if-false-expression
• 示例:
awk -F: ‘$3>=1000?usertype="Common User":usertype="
SysUser";printf "%15s:%-s\\n",$1,usertype‘ /etc/passwdawk PATTERN
? PATTERN:根据pattern条件,过滤匹配的行,再做处理
(1)如果未指定:空模式,匹配每一行
(2) /regular expression/:仅处理能够模式匹配到的行,需要用/ /括起来
awk ‘/^UUID/print $1‘ /etc/fstab
awk ‘!/^UUID/print $1‘ /etc/fstab
/需要转义
两种写法
过滤掉以空白符以及#开头的行
(3) relational expression: 关系表达式,结果为“真”才会被处理
真:结果为非0值,非空字符串
假:结果为空字符串或0值
非0 或空字符取反为1为假
取反
变量
awk PATTERN
?4) line ranges:行范围
startline,endline:/pat1/,/pat2/ 不支持直接给出数字格式
\\>单词右侧锚定
awk -F: ‘/^root\\>/,/^nobody\\>/print $1‘ /etc/passwd
awk -F: ‘(NR>=10&&NR<=20)print NR,$1‘ /etc/passwd 显示行号
?(5) BEGIN/END模式
BEGIN:仅在开始处理文件中的文本之前执行一次
END:仅在文本处理完成之后执行一次
i变量未赋值为空
awk控制语句if-else
? 语法:if(condition)statement;…[else statement]
if(condition1)statement1else if(condition2)statement2elsestatement3
? 使用场景:对awk取得的整行或某个字段做条件判断
打印奇数行
awk控制语句
?while循环
?语法:while(condition)statement;…
?条件“真”,进入循环;条件“假”,退出循环
?使用场景:
行自动循环 针对于列
对一行内的多个字段逐一类似处理时使用
对数组中的各元素逐一处理时使用
time 统计时间
awk 运算效率最高
break和continue
awk ‘BEGINsum=0;for(i=1;i<=100;i++)
if(i%2==0)continue;sum+=iprint sum‘
awk ‘BEGINsum=0;for(i=1;i<=100;i++)
if(i==66)break;sum+=iprint sum‘
break 循环停止
next:
提前结束对本行处理而直接进入下一行处理(awk自身循环)
awk -F: ‘if($3%2!=0) next; print $1,$3‘ /etc/passwd
awk数组
?关联数组:array[index-expression] 不需声明 直接赋值
?index-expression:
• (1) 可使用任意字符串;字符串要使用双引号括起来
• (2) 如果某数组元素事先不存在,在引用时,awk会自动创建此元素,并将其值 初始化为“空串”
• (3) 若要判断数组中是否存在某元素,要使用“index in array”格式进行遍历
数值处理:
rand():返回0和1之间一个随机数
awk ‘BEGINsrand(); for (i=1;i<=10;i++)print int(rand()*100) ‘
awk函数
?自定义函数格式:
function name ( parameter, parameter, ... )
statements
return expression
?示例:
示例:
cat fun.awk
function max(x,y)
x>y?var=x:var=y
return var
BEGINa=3;b=2;print max(a,b)
awk -f fun.awk
以上是关于AWK的主要内容,如果未能解决你的问题,请参考以下文章