Linux文本处理三剑客之grep一族与正则表达式

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Linux文本处理三剑客之grep一族与正则表达式相关的知识,希望对你有一定的参考价值。

一,grep一族是什么?

   Linux上有三种常用的文本处理工具,分别为:grep(egrep、fgrep)、sed、awk。这三者被称为Linux文本处理三剑客。

   grep一族:文本搜索工具

        grep:支持使用基本正则表达式;

        egrep:支持使用扩展正则表达式,相当于grep -E;

        fgrep:不支持使用正则表达式,相当于grep -F;

       【PS:fgrep不需要加载正则表达式引擎,因此速度较快,fgrep的搜索效率在当文件达到几亿行时就能体现出来。(大型web网站一天的日志量都是几亿行的,通过fgrep可以很轻松的高效率的完成)】

二,什么是正则表达式?

    正则表达式(REGEXP):Regual Expression

           由一类特殊字符及文本字符所编写的模式用于控制或通配的功能;

分两类:

基本正则表达式:BRE(Base  REGEXP )

扩展正则表达式:ERE(Extended  REGEXP)


三,grep的作用和用法

   grep(Globally search a Regular Expression and Print):文本搜索工具

     1.作用:基于“pattern"(这里指的是过滤模式,多指正则表达式)对给定的文本进行搜索。

     2.模式:由正则表达式的元字符及文本字符所编写出的过滤条件;

    3.用法:

grep  [OPTIONS]   PATTERN   [FILE...]

grep  [OPTIONS]  [-e PATTERN | -f FILE]  [FILE...]

 OPTIONS:
    --color=auto:对匹配到的文本着色后高亮显示;
    -d:当指定要查找的是目录而非文件时,必须使用这项参数,否则grep指令将回报信息并停止动作。
    -i:ignorecase,忽略字符的大小写;
    -o:仅显示匹配到的字符串本身;
    -v,--invert-match:反向匹配;
    -E:支持使用扩展的正则表达式元字符;
    -q,--quiet, --silent:静默模式,即不输出任何信息;
    -r或--recursive   -d的(指定查找的是目录下而非文件时)递归查找;
    -A#:after, 后#行
    -B#:before,前#行
    -C#:context,前后各#行

   例1:在当前目录中,查找后缀有"test"字样的文件中包含"test"字符串的文件,并打印出该字符串的行

           技术分享

  例2:以【-r 递归的方式查找】指定目录/etc/X11 及其子目录(如果存在子目录的话)下所有文件中包含字符串"root"的文件,并打印出该字符串所在行的内容;

          技术分享

  例3:【-v 反向匹配】查找文件名中包含test 的文件中不包含test 的行;

            技术分享


四,基本正则表达式元字符:

    1.字符匹配:

   .:匹配任意单个字符;

           技术分享

   []:匹配指定范围内的任意单个字符;

           技术分享

 [^]:匹配指定范围外的任意单个字符;

          技术分享

字符集

                    [[:upper:]]:所有大写字母;

                    [[:lower:]]:所有小写字母;

                    [[:digit:]]:所有的数字;

                    [[:alpha:]]:所有字母;

                    [[:alnum:]]:所有字母和数字;

                    [[:space:]]:空白字符;

                    [[:punct:]]:标点符号;

          技术分享

 

   2.匹配次数:用于限制其前面字符出现的次数;默认工作于贪婪模式;

   贪婪模式:匹配时按照给定规则尽可能匹配最长的字符串;

   *:匹配其前面的字符任意次;0,1,多次;

       技术分享

  .*:匹配其前面的字符任意长度的任意字符

       技术分享

  \?:匹配其前面的字符0次或1次;即其前面的字符是可有可无的;

       技术分享

  \+:匹配其前面的字符1次或多次;即其面的字符要出现至少1次;

       技术分享

  \{m\}:匹配其前面的字符m次,m为非负数

       技术分享

          \{m,n\}:匹配其前面的字符至少m次,至多n次;

                技术分享

       \{0,n\}:至多n次

       技术分享

        \{m,\}:至少m次

       技术分享


   3.位置锚定:

     ^:行首锚定;用于模式的最左侧;

       技术分享

     $:行尾锚定;用于模式的最右侧;

       技术分享

     ^PATTERN$:用于PATTERN来匹配整行;

       技术分享

^$:空白行;(在文档中常用于过滤多余的空行,grep -v用来取反)

技术分享

^[[:space:]]*$:空行或包含空白字符的行;(常用于过滤空行中包含空白字符的行,比如空格、制表符等,-v "^$"过滤不了的行)

技术分享

单词:非特殊字符组成的连续字符(字符串)都称为单词;

\< 或 \b:词首锚定,用于单词模式的左侧,格式为\<PATTERN或 \bPATTERN;

技术分享

\> 或 \b:词尾锚定,用于单词模式的右侧,格式为PATTERN\>或 PATTERN\b;

技术分享

\<PATTERN\>:匹配完整单词;

技术分享


  4.分组及引用:

 \(PATTERN\):将一个或多个字符捆绑在一起,当作一个整体进行处理;

  【注意:分组括号中的模式匹配到的字符会被正则表达式引擎自动记录于内部的变量中,这些变量是\1, \2, \3, ...】

\1:模式从左侧起,第一组括号中的pattern所匹配到的字符串;

\2:模式从左侧起,第二组括号中的pattern所匹配到的字符串

\3

……….(括号嵌套)

   后向引用:引用前面的分组括号中的模式所匹配到的字符;

             技术分享


五,扩展正则表达式的元字符:

      【注意:与基本正则表达式不同,扩展正则表达式在一些参数上可以不使用转义符(\),但是在使用上没有什么区别】

       1.字符匹配:使用方法和参数与正则表达式相同;可参照正则表达式使用方法;


     2.匹配次数:

   *:任意次,0,1或多次;

  ?:0次或1次,其前的字符是可有可无的;

  +:其前字符至少1次;

  {m}:其前的字符m次,m为非负数

  {m,n}:至少m次,至多n次;

  {0,n}:至多n次;

   {m,}:至少m次;


3.位置锚定:使用方法和参数与正则表达式相同;可参照正则表达式使用方法;


4.分组及引用:

 \(PATTERN\):将一个或多个字符捆绑在一起,当作一个整体进行处理;

  【注意:分组括号中的模式匹配到的字符会被正则表达式引擎自动记录于内部的变量中,这些变量是\1, \2, \3, ...】

\1:模式从左侧起,第一组括号中的pattern所匹配到的字符串;

\2:模式从左侧起,第二组括号中的pattern所匹配到的字符串

【注意:这里的\1,\2不能省略转义符】


5.或者:【扩展表达式特有功能】

a|b:a或者b

C|cat:C或cat

(c|C)at:cat或Cat


六,练习

  1、找出/tmp/passwd文件中,所有以大写或小写S开头的行;至少有三种实现方式;   

    ~]# egrep -i "^s" /tmp/passwd
    ~]# grep "^[sS]"   /tmp/passwd
   ~]# grep -E "^(s|S)" /tmp/passwd
   ~]# egrep  "^(s|S)" /tmp/passwd

    技术分享

   2、显示当前系统上root、centos或user1用户的相关信息;

~]# grep -E "^(root|centos|user1)\>" /etc/passwd
~]# egrep "^(root|centos|user1)\>" /etc/passwd

   技术分享

  3、找出/etc/rc.d/init.d/functions文件中某单词后面跟一个小括号的行;

~]# grep  -E  -o  "[_[:alnum:]]+\(\)"  /etc/rc.d/init.d/functions

  技术分享

  4、找出/etc/passwd文件中的两位数或三位数;

~]# grep  "\<[0-9]\{2,3\}\>"  /etc/passwd                          
~]# egrep  "\<[0-9]{2,3}\>"  /etc/passwd

   技术分享

  5、找出/etc/grub2.cfg文件中,以至少一个空白字符开头,后面又跟了非空白字符的行;

 ~]# grep  "^[[:space:]]\+[^[:space:]]"  /etc/grub2.cfg
  ~]# egrep  "^[[:space:]]+[^[:space:]]"  /etc/grub2.cfg

     技术分享

  6、找出"netstat  -tan”命令的结果中,以‘LISTEN’后跟0或多个空白字符结尾的行;

~]# netstat -tan | grep  "LISTEN[[:space:]]*$"
~]# netstat -tan | egrep  "LISTEN[[:space:]]*$"

     技术分享

  7、找出“fdisk -l”命令的结果中,包含以/dev/后跟sd或hd及一个小字母的行;

~]#fdisk -l | grep "/dev/[s,h]d[a-z]\>"
~]#fdisk -l | egrep "/dev/[s,h]d[a-z]\>"
~]#fdisk -l | egrep "/dev/(s|h)d[[:lower:]]\>"

     技术分享

  8、找出”ldd  /usr/bin/cat“命令的结果中文件路径;

~]#ldd /usr/bin/cat | grep -o "/[^[:space:]]\+"                        
~]#ldd /usr/bin/cat | egrep -o "/[^[:space:]]+"

   技术分享

  9、echo输出一个绝对路径,使用egrep取出其基名;

~]# echo /etc/sysconfig | grep -o  "[^/]\+/\?$"
~]# echo /etc/sysconfig | egrep -o  "[^/]+/?$"

    技术分享

  10、找出ifconfig命令结果中的1-255之间的数值;

~]# ifconfig | grep -o "\<([1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\>"                    
~]# ifconfig | egrep -o  "\<([1-9]|[1-9][0-9]|1[0-9][0-9]|2[0-4][0-9]|25[0-5])\>"

   技术分享

  11、添加用户bash、testbash、basher及nologin,要求前三个用户的默认shell为/bin/bash,nologin的默认shell为/sbin/nologin,而后找出其用户名与shell名相同的用户

~]# grep  -E  "^([^:]+\>).*\1$"  /etc/passwd
~]# egrep "^([^:]+\>).*\1$"  /etc/passwd
~]# egrep "^([[a-z0-9]+)\>.*\1$" /etc/passwd

   技术分享

  12、找出ifconfig命令结果中的IP地址

~]# ifconfig | egrep "\<inet[[:space:]]+.*[0-9]\>"

  技术分享


以上是关于Linux文本处理三剑客之grep一族与正则表达式的主要内容,如果未能解决你的问题,请参考以下文章

linux文本处理工具之grep与正则表达式语法

Linux 文本处理三剑客之grep

Linux文本处理三剑客之grep及正则表达式

linux文本处理三剑客之grep家族及其相应的正则表达式使用详解

linux12shell编程 --> 三剑客之grep命令

Linux三剑客之grep伐木累(正则表达式)