大数据之Shell:Shell工具(awk)

Posted 浊酒南街

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据之Shell:Shell工具(awk)相关的知识,希望对你有一定的参考价值。

1.awk

awk是一门编程语言,也是一个强大的文本分析工具,把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行分析处理。

1.1:基本用法

awk [选项参数] ‘pattern1{action1} pattern2{action2}…’ filename
pattern:表示AWK在数据中查找的内容,就是匹配模式
action:在找到匹配内容时所执行的一系列命令

1.2:选项参数说明

选项参数功能
-F指定输入文件折分隔符
-v赋值一个用户定义变量

1.3:案例实操

(0)数据准备

[bigdata@hadoop102 datas]$ sudo cp /etc/passwd ./

(1)搜索passwd文件以root关键字开头的所有行,并输出该行的第7列。

[bigdata@hadoop102 datas]$ awk -F: '/^root/{print $7}' passwd 
/bin/bash

(2)搜索passwd文件以root关键字开头的所有行,并输出该行的第1列和第7列,中间以“,”号分割。

[bigdata@hadoop102 datas]$ awk -F: '/^root/{print $1","$7}' passwd 
root,/bin/bash

注意:只有匹配了pattern的行才会执行action
(3)只显示/etc/passwd的第一列和第七列,以逗号分割,且在所有行前面添加列名user,shell在最后一行添加"dahaige,/bin/zuishuai"。

[bigdata@hadoop102 datas]$ awk -F : 'BEGIN{print "user, shell"} {print $1","$7} END{print "dahaige,/bin/zuishuai"}' passwd
user, shell
root,/bin/bash
bin,/sbin/nologin
.....
jinghang,/bin/bash
dahaige,/bin/zuishuai

注意:BEGIN 在所有数据读取行之前执行;END 在所有数据执行之后执行。
(4)将passwd文件中的用户id增加数值1并输出

[bigdata@hadoop102 datas]$ awk -v i=1 -F: '{print $3+i}' passwd
1
2
3
4

1.4: awk的内置变量

变量说明
FILENAME文件名
NR已读的记录数
NF浏览记录的域的个数(切割后,列的个数)

1.5: 案例实操

(1)统计passwd文件名,每行的行号,每行的列数

[bigdata@hadoop102 datas]$ awk -F: '{print "filename:"  FILENAME ", linenumber:" NR  ",columns:" NF}' passwd 
filename:passwd, linenumber:1,columns:7
filename:passwd, linenumber:2,columns:7
filename:passwd, linenumber:3,columns:7

(2)切割IP

[bigdata@hadoop102 datas]$ ifconfig eth0 | grep "inet addr" | awk -F: '{print $2}' | awk -F " " '{print $1}' 
192.168.1.102

(3)查询sed.txt中空行所在的行号

[bigdata@hadoop102 datas]$ awk '/^$/{print NR}' sed.txt 
5

以上是关于大数据之Shell:Shell工具(awk)的主要内容,如果未能解决你的问题,请参考以下文章

Shell编程之正则表达式

shell中最强大,实用的命令awk

shell脚本之awk工具的使用

shell 文本处理之 awk

shell之awk

Shell脚本之awk详解