Linux入门开发: 学习linux三剑客(awksedgrep)(上)
Posted DS小龙哥
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Linux入门开发: 学习linux三剑客(awksedgrep)(上)相关的知识,希望对你有一定的参考价值。
一、前言
Linux中的三个命令awk、sed、grep在业界被称为“三剑客”,grep擅长查找,sed擅长取行和替换,awk擅长运算。
我们知道Linux下一切皆文件,对Linux的操作就是对文件的处理,那么怎么能更好的处理文件呢?这就要用到三剑客命令。
三剑客与正则表达式息息相关,正则表达式是为了处理大量的文本|字符串而定义的一套规则和模版,这个模版是由一些普通字符和一些元字符组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义。正则表达式详情可参看资料《linux正则表达式》。
三剑客与正则表达式是什么关系呢?
三剑客就是普通的命令,有的把他们叫做工具。而正则表达式就好比一个模版,而linux下一般只有三剑客能读懂这个模版。
二、grep命令
2.1 grep命令功能
grep(global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。
Unix的grep家族包括grep、egrep和fgrep。egrep和fgrep的命令只跟grep有很小不同。egrep是grep的扩展,支持更多的re元字符, fgrep就是fixed grep或fast grep,它们把所有的字母都看作单词,也就是说,正则表达式中的元字符表示回其自身的字面意义,不再特殊。linux使用GNU版本的grep。它功能更强,可以通过-G、-E、-F命令行选项来使用egrep和fgrep的功能。
查找内容可以用双引号括起来,也可以不用,建议使用双引号,双引号中一些特殊符号要注意使用转义字符。
格式:grep [OPTIONS] PATTERN [FILE...]
grep默认不支持扩展正则,因此扩展正则表达式的符号对于grep来说就等同于普通字符含义,因此,想让grep直接处理正则符号必须通过转义字符\\{\\}来处理。
grep -E 强制让grep直接认识正则符号,不需要再进行转义,egrep 等效grep -E 天生就能认识正则符号;我们平时备份可以通过cp 文件名{,.bak}的形式进行,避免再打一次文件名
2.2 支持的选项参数
-a 不要忽略二进制数据。
-A <显示行数> 除了显示符合范本样式的行之外,并显示该行之后的指定几行内容。
-B<显示行数> 除了显示符合范本样式的行之外,并显示该行之前的指定几行内容。
-C<显示行数> 除了显示符合范本样式的那一行之外,并显示该行前后指定几行的内容。
-b 在显示符合范本样式的那一行之外,并显示字节偏移量。-c 只计算显示符合范本样式的行数,不显示详细内容
-d<进行动作> 当指定要查找的是目录而非文件时,必须使用这项参数,否则grep命令将回报信息并停止动作。
-e<范本样式> 指定字符串作为查找文件内容的范本样式。
-E 将范本样式为延伸的普通表示法来使用,意味着能使用扩展正则表达式。
-f <范本文件> 指定范本文件,其内容有一个或多个范本样式,让grep查找符合范本条件的文件内容,格式为每一列的范本样式。
-F 将范本样式视为固定字符串的列表。
-G 将范本样式视为普通的表示法来使用。
-h 在显示符合范本样式的那一列之前,不标示该列所属的文件名称。
-H 在显示符合范本样式的那一列之前,标示该列的文件名称。
-i 忽略字符大小写的差别。
-l 列出文件内容符合指定的范本样式的文件名称。
-L 列出文件内容不符合指定的范本样式的文件名称。
-n 在显示符合范本样式的那一列,标示出该列的编号。
-q 不显示任何信息。
-R/-r 此参数的效果和指定“-d recurse”参数相同,表明查找路径为目录
-s 不显示错误信息。
-v 反转查找,显示不符合模式的所有信息
-w 只显示全字符合的列。
-x 只显示全列符合的列。
-y 此参数效果跟“-i”相同。
-o 只输出文件中匹配到的部分。
--color=auto 把匹配部分标记出来,要想当前终端后续使用都要标记匹配部分,可用alias命令重新封装grep。
#alias grep=’grep --color=auto’
2.3 常用示例
在文件中查找内容
成功会输出所有包含查找内容的行,否则输出为空。
$ grep bash file_read.sh #在file_read.sh内查找bash $ grep "bash" file_read.sh --color=auto #两者效果相同,并且标记颜色 $ grep "bash" file_read.sh demo.sh #在file_read.sh demo.sh 内查找bash |
在目录下查找内容
成功会输出文件名:所有包含内容的行,否则输出为空
需运用-r/-R/-d recurse 选项参数,指明查找路径为目录
$ grep "bash" -r ./ #在当前目录下查找文件内容bash $ grep "bash" -R ./ $ grep "bash" -d recurse ./ |
显示查找内容所在行的行号
需运用-n参数,显示行号,可单独也可与其他选项参数写在一起。
$ grep "bash" -n file_read.sh #在file_read.sh内查找bash $ grep "bash" -Rn ./ $ grep "bash" -r -n ./ |
反转显示,显示与查找内容不符合的所有内容
需运用-v参数。
$ grep "bash" -vn demo.sh #显示demo.sh内不包含bash的行,并显示行号 |
查找以某内容开头的行
需运用正则表达式^...。
$ grep "^#" demo.sh #查找demo.sh内以#开头的行,注意前面不能有空白字符,必须是最开头 |
查找空白行
需运用正则表达式^...。
需运用正则表达式...$。
$ grep "^$" 123.txt |
查找非指定字符开头的行
$ grep "^[^#]" demo.sh #在demo.sh中查找不以#开头的行 |
查找以某内容结尾的行
需运用正则表达式...$。
$ grep "name$" demo.sh #查找demo.sh内以name结尾的行,注意必须是最后且后面不能有空白字符 |
获取查找内容行数
需运用-c参数,不显示详细内容,只显示行数
$ grep "name" demo.sh -c # 在demo.sh中查找name出现的行数 |
显示查找内容及其前后行内容
需运用 -A 行数/-B 行数/-C 行数 参数
$ grep "name" demo.sh -A 2 #显示查找内容及其后两行内容 $ grep "name" demo.sh -B 2 #显示查找内容及其前两行内容 $ grep "name" demo.sh -C 2 #显示查找内容及其前后两行内容 |
查找阿拉伯数字
需要用到正则表达式[m]与{n},选项参数-E(指定使用正则表达式)
[]正则表达式:[m]表明查找匹配m字符的内容。
[^m]表明匹配不是m字符的内容。
[m-f]表示匹配m到f的内容,m可以是数字,可以是字符。
{}正则表达式:{m}表示匹配之前的项m次
{m,}表示匹配之前的项至少m次
{m,f}表示匹配之前的项m次到f次。m是可以为0的正整数。
$ grep "[1-3]\\{2\\}" 123.txt #在123.txt中查找1-3之间数字出现两次的内容,注意{}前后一定要加转义字符 $ grep -E "[1-3]{2}" 123.txt #或者直接使用-E参数指定使用正则表达式,则可不加转义 $ grep "[1-3][1-3]" 123.txt #与上面相同效果,也表示在123.txt中查找1-3之间数字出现两次的内容 $ifconfig | grep "[0-9]\\{1,3\\}\\.[0-9]\\{1,3\\}\\.[0-9]\\{1,3\\}\\.[0-9]\\{1,3\\}" |
grep用于常规的查询操作固然方便,但是最大的弊端就是查出来不能增删改,导致如果是写一些脚本就会很不方便,这个时候就需要sed和awk这样的工具来实现。
三、sed命令
3.1 sed命令介绍
sed是一种流编辑器,它是文本处理中非常中的工具,能够完美的配合正则表达式使用,功能不同凡响。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件;简化对文件的反复操作;编写转换程序等。
命令格式:
sed [options] 'command' file(s) sed [options] -f scriptfile file(s) |
注意:查找的内容前后一定要用/包含起来,示例/sh/ 。替换的时候可用@与#替换/。
命令与查找内容可连在一起也可分开,但是中间必须有/作为间隔。
3.2 sed的工作流程
1、sed默认不编辑原文件,而是逐行操作,复制一份到指定内存(pattern space,模式空间)
2、pattern space内进行模式匹配,即和指定条件做匹配
不满足模式:输出到标准输出STDOUT
满足模式:进行指定的模式操作,再输出到STDOUT
3、第二个特殊的内存空间 :保持空间(hold space),临时保存操作在另一处内存
4、当执行pattern space和 hold space相关选项时候会进行之间的数据流编辑操作
5、最后根据操作执行hold space空间操作,选择性显示到STDOUT
3.3 选项参数
-c/--copy 用拷贝代替重命名 -e<script>/--expression=<script> 以选项中的指定的脚本来处理输入的文本文件; -f<script文件>/--file=<script文件> 以选项中指定的脚本文件来处理输入的文本文件; --follow-symlinks 处理输入的文本文件时,追踪软链接,断开硬链接 -h/--help 显示帮助; -i[SUFFIX]/ --in-place[=SUFFIX] 就地编辑文件,提供了后缀名(.bak)则备份文件 -l N/ --line-length=N 为l命令指定换行的长度n -n/--quiet/——silent 不自动打印模式空间内容,仅显示脚本处理后的结果,sed默认打印全部内容 --posix 禁用所有GNU扩展 -u/ --unbuffered 从输入文件中加载最小的数据并频繁刷新输出缓冲区 -V/--version 显示版本信息。 -r/--regexp-extended 支持使用扩展正则表达式 -s/--separate 把文件作为单独的个体而不是作为单个连续的长流 |
3.4 命令参数的使用
命令建议用单引号’’或双引号括起来方便区分,多个命令用;隔开。
a\\ 在当前行下面插入文本。 i\\ 在当前行上面插入文本。 c\\ 把选定的行改为新的文本。 d 删除,删除选择的行。 D 删除模板块的第一行。 s 替换指定字符,字符间可用/或@或#隔开 h 拷贝模板块的内容到内存中的缓冲区。 H 追加模板块的内容到内存中的缓冲区。 g 获得内存缓冲区的内容,并替代当前模板块中的文本。 G 获得内存缓冲区的内容,并追加到当前模板块文本的后面。 l 列表不能打印字符的清单。 n 读取下一个输入行,用下一个命令处理新的行而不是用第一个命令。 N 追加下一个输入行到模板块后面并在二者间嵌入一个新行,改变当前行号码。 p 打印模板块的行。前面可加数字,指定打印第几行 P(大写) 打印模板块的第一行。 q 退出Sed。 b lable 分支到脚本中带有标记的地方,如果分支不存在则分支到脚本的末尾。 r file 从file中读行。 t label if分支,从最后一行开始,条件一旦满足或者T,t命令,将导致分支到带有标号的命令处,或者到脚本的末尾。 T label 错误分支,从最后一行开始,一旦发生错误或者T,t命令,将导致分支到带有标号的命令处,或者到脚本的末尾。 w file 写并追加模板块到file末尾。 W file 写并追加模板块的第一行到file末尾。 ! 表示后面的命令对所有没有被选定的行发生作用。 示例:1!表明对文中所有行起作用,3!表示对文中第三行及以下行起作用 = 打印当前行号码。 # 把注释扩展到下一个换行符以前。 |
3.5 替换标记
g 表示行内全面替换。 p 表示打印行。 w 表示把行写入一个文件。 x 表示互换模板块中的文本和缓冲区中的文本。 y 表示把一个字符翻译为另外的字符(但是不用于正则表达式) \\1 子串匹配标记 & 已匹配字符串标记 |
3.6 元字符集
^ 匹配行开始,如:/^sed/匹配所有以sed开头的行。 $ 匹配行结束,如:/sed$/匹配所有以sed结尾的行。 . 匹配一个非换行符的任意字符,如:/s.d/匹配s后接一个任意字符,最后是d。 * 匹配0个或多个字符,如:/*sed/匹配所有模板是一个或多个空格后紧跟sed的行。 [] 匹配一个指定范围内的字符,如/[sS]ed/匹配sed和Sed。 [^] 匹配一个不在指定范围内的字符,如:/[^A-RT-Z]ed/匹配不包含A-R和T-Z的一个字母开头,紧跟ed的行。 \\(..\\) 匹配子串,保存匹配的字符,如s/\\(love\\)able/\\1rs,loveable被替换成lovers。 & 保存搜索字符用来替换其他字符,如s/love/**&**/,love这成**love**。 \\< 匹配单词的开始,如:/\\<love/匹配包含以love开头的单词的行。 \\> 匹配单词的结束,如/love\\>/匹配包含以love结尾的单词的行。 x\\{m\\} 重复字符x,m次,如:/0\\{5\\}/匹配包含5个0的行。 x\\{m,\\} 重复字符x,至少m次,如:/0\\{5,\\}/匹配至少有5个0的行。 x\\{m,n\\} 重复字符x,至少m次,不多于n次,如:/0\\{5,10\\}/匹配5~10个0的行。 |
3.7 脚本地址定界
/ 在sed中作为定界符使用,也可以使用任意的定界符:| / 定界符出现在样式内部时,需要进行转义,示例:sed 's/\\/bin/\\/usr\\/local\\/bin/g' 不给地址:对全文进行处理 $:表示最后一行 地址范围: 选定行的范围:,(逗号) /pattern/:被此处模式所能够匹配到的每一行 /pattern/,m:被模式匹配到的第一行起到m行 n,m 表示从n行到第m行 n,+m 表示从n行起往后增加m行 n~m:步进:以n行为基准值,每次增加m行 |
3.8 组合多个表达式
sed '表达式' | sed '表达式' 等价于: sed '表达式; 表达式' |
3.9 常用示例
显示输入文件的行号
需用到命令:=:打印当前行号码(包括空白行)
需用到元字符集:. :匹配一个非换行符的任意字符
需用到命令:!: 表示后面的命令对所有没有被选定的行发生作用。
$ sed '=' 123.txt #显示文本的每一行行号 $ sed '3=' 123.txt #显示文本的第三行行号 $ sed "/./=" 123.txt #只显示非空白行的行号 $ sed -n "/./!=" 123.txt #只显示空白行行号 |
显示文件总行数
需用到元字符集:$:匹配到行结束
$ sed '$=' 123.txt #可显示123.txt内总共有多少行,也就是最后一行的行号 |
打印输入文件的指定行内容
需用到-n参数:不自动打印,
需用到p命令:打印模块的行
$ sed -n '2p' 123.txt #注意一定要加-n,否则会默认自动打印所有内容 $ sed -n '2 p' 123.txt #注意一定要加-n,否则会默认自动打印所有内容 |
打印输入文件的指定几行内容
$sed -n '2,7 p' 123.txt #注意一定要加-n,否则会默认自动打印所有内容 $ sed -n '2,7p' 123.txt $ sed -n '2,7 {p}' 123.txt #命令也可单独用{}括起来 |
替换输入文件中内容
需用到-i参数:就地编辑文件,会对源文件作更改
需用到s命令:替换指定字符,注意字符之间可用/@#隔开,注意如果没有其他命令或者替换标记作为结尾,最后也必须得由它们作为尾字符,
需用到g替换标记:替换行内的所有匹配内容,前面可加数字,表明第几个匹配位置
$ sed -i 's/bck/sh/' 123.txt 666.txt #替换123.txt、666.txt内的bck为sh,每行只替换一个 $ sed -i 's/bck/sh/g' 123.txt #替换123.txt内的bck为sh,每行都进行全面替换 $ sed -i 's/bck/sh/3g' 123.txt #替换123.txt内的bck为sh,从第3个匹配位置开始替换 $ sed -i 's@bck@sh@g' 123.txt #替换123.txt内的bck为sh,每行都进行全面替换 $ sed -i 's#bck#sh#g' 123.txt #替换123.txt内的bck为sh,每行都进行全面替换 |
替换输入文件中指定行的内容
$ sed -i '1,5 s/bck/sh/g' 123.txt 666.txt #替换123.txt、666.txt内的第一行到第五行的bck为sh,每行全面替换 $ sed -i '2,+2 {s/bck/sh/g}' 123.txt 666.txt #替换123.txt、666.txt内的第二行往后两行的bck为sh,每行全面替换,命令也可以单独用{}括起来,表示边界 $ sed -i '2~2 s/bck/sh/g' 123.txt 666.txt #替换123.txt、666.txt内的第二行往后每次增加两行的bck为sh,每行全面替换 |
给文件名\\单词前统一替换加前缀或后缀或前后缀
需用到元字符集:^ 匹配行开始,如:/^sed/匹配所有以sed开头的行。
需用到元字符集:$ 匹配行结束,如:/sed$/匹配所有以sed结尾的行。
需用到替换标记:& 已匹配字符串标记,代替之前已匹配内容
需用到正则表达式:\\w\\+:匹配每一个单词
$ ls | sed 's/^/666_&/g' #表示给当前文件下的文件名统一添加前缀 $ ls | sed 's/$/666_&/g' #表示给当前文件下的文件名统一添加后缀 $ ls | sed 's/\\w\\+/666_&/g' #表明给所有的单词添加前缀 $ ls | sed 's/\\w\\+/[&]/' #表明给每个匹配到的单词用[]括起来 |
显示指定区间以指定内容开头或结尾的行
需用到元字符集^:匹配行开始
如果/前面有地址定界,则在/外面必须加上{}
$ sed -n '1,10 {/^10/p}' 123.txt #显示123.txt内第1到第10行中以10开头的行 $ sed -n '/^10/p' 123.txt # /前没有地址定界则可以不加{},如果有则必须加上 $ sed -n '1,10 {/sh$/p}' 123.txt #显示123.txt内第1到第10行中以结尾的行 |
显示查找内容的所有行、显示找到的第一行及以下指定行
需用到脚本地址定界:/pattern/:被此处模式所能够匹配到的每一行
需用到脚本地址定界:/pattern/,m:被模式匹配到的第一行起到m行
需用到脚本地址定界:$ 匹配到末尾行
$ sed -n '/sh/p' 123.txt #显示123.txt内的所有包含sh的所有行 $ sed -n '/sh/ ,$ p' 123.txt #显示123.txt里第一条包含sh的行及以下到末尾的所有行 $ sed -n '/sh/ ,$p' 123.txt |
逆序输出文本内容
需用到命令:!:!前跟非零数字,表示后面的命令对所有没有被选定的行发生作用
需用到命令:G:获得内存缓冲区的内容,并追加到当前模板块文本的后面
需用到命令:h: 拷贝模板块的内容到内存中的缓冲区
需用到命令:d :删除,删除选择的行。
多个命令之前用分号;隔开。
$ sed '1!G;h;$!d' 123.txt |
逆序输出每行内容
$ sed '/\\n/!G;s/\\(.\\)\\(.*\\n\\)/&\\2\\1/;//D;s/.//' 123.txt |
删除指定行
需用到命令:d 删除,删除选择的行。
$ grep -n "sh" 123.txt | sed '4,5d' #删除grep查找到的内容的第4到5行 $ grep -n "sh" 123.txt | sed '1,2d' #删除grep查找到的内容的第1行后每次隔两行删一行 $ sed '/^$/d' 123.txt #删除空白行 |
在指定行前后插入内容
需用到命令:a\\ 在当前行下面插入文本。默认当前行为最末行
需用到命令:i\\ 在当前行上面插入文本。默认当前行为最末行
需用到命令:c\\ 把选定的行改为新的文本。默认当前行为所有行
$ sed 'a\\hello\\' 123.txt #在123.txt的末行后增加一行hello $ sed 'i\\hello\\' 123.txt #在123.txt的末行前增加一行hello $ sed 'c\\hello\\' 123.txt #替换123.txt的所有行为hello $ sed '8a\\hello\\' 123.txt #在123.txt的第8行后增加一行hello $ sed '8,10a\\hello\\' 123.txt #在123.txt的第8行到10行每一行后增加一行hello $ sed '8,10c\\hello\\' 123.txt #在123.txt的第8行到10行替换为一行hello |
一行内执行多条命令
需用到选项参数-e<script>/--expression=<script> 以选项中的指定的脚本来处理输入的文本文件;
$ sed -e '1,5d' -e 's/sh/bck/' 123.txt #先删除1到5行再替换sh为bck $ sed '1,5d;s/sh/bck/' 123.txt #三者效果相同 $ sed --expression='1,5d' --expression='s/sh/bck/' 123.txt #三者效果相同 |
四、awk命令
续集: Linux入门开发: 学习linux三剑客(awk、sed、grep)(下)
以上是关于Linux入门开发: 学习linux三剑客(awksedgrep)(上)的主要内容,如果未能解决你的问题,请参考以下文章