linux文本处理三剑客之 grep

Posted 2022-10-07 pacino12134

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了linux文本处理三剑客之 grep相关的知识，希望对你有一定的参考价值。

文本处理无非是对文本内容做查看、修改等操作。Linux三剑客： grep、sed 和 awk 命令。

处理文本内容，用 Vim 编辑器不是很好吗？Vim 允许我们使用键盘、鼠标来对文本内容进行交互性地修改，但在某些场景中，我们可能需要实现对文本内容做自动化的处理，而不是手工处理。

很多时候，我们并不需要列出文件的全部内容，而是从文件中找到包含指定信息的那些行，要实现这个目的，可以使用 grep 命令。

grep 命令的由来可以追溯到 UNIX 诞生的早期，在 UNIX 系统中，搜索的模式（patterns）被称为正则表达式（regular expressions），为了要彻底搜索一个文件，有的用户在要搜索的字符串前加上前缀 global（全面的），一旦找到相匹配的内容，用户就像将其输出（print）到屏幕上，而将这一系列的操作整合到一起就是 global regular expressions print，而这也就是 grep 命令的全称。

grep命令能够在一个或多个文件中，搜索某一特定的字符模式（也就是正则表达式），此模式可以是单一的字符、字符串、单词或句子。

正则表达式是描述一组字符串的一个模式，正则表达式的构成模仿了数学表达式，通过使用操作符将较小的表达式组合成一个新的表达式。正则表达式可以是一些纯文本文字，也可以是用来产生模式的一些特殊字符。为了进一步定义一个搜索模式，grep 命令支持如表 1 所示的这几种正则表达式的元字符（也就是通配符）。

通配符	功能
c*	将匹配 0 个（即空白）或多个字符 c（c 为任一字符）。
.	将匹配任何一个字符，且只能是一个字符。
[xyz]	匹配方括号中的任意一个字符。
[^xyz]	匹配除方括号中字符外的所有字符。
^	锁定行的开头。
$	锁定行的结尾。

在基本正则表达式中，如通配符 *、+、、|、( 和 )等，已经失去了它们原本的含义，而若要恢复它们原本的含义，则要在之前添加反斜杠 \，如 \*、\+、\、\|、$ 和 $。

grep 命令是用来在每一个文件或中（或特定输出上）搜索特定的模式，当使用 grep 时，包含指定字符模式的每一行内容，都会被打印（显示）到屏幕上，但是使用 grep 命令并不改变文件中的内容。

grep 命令的基本格式如下：grep [选项] 模式文件名

这里的模式，要么是字符（串），要么是正则表达式。

选项	含义
-c	仅列出文件中包含模式的行数。
-i	忽略模式中的字母大小写。
-l	列出带有匹配行的文件名。
-n	在每一行的最前面列出行号。
-v	列出没有匹配模式的行。
-w	把表达式当做一个完整的单字符来搜寻，忽略那些部分匹配的行。

注意，如果是搜索多个文件，grep 命令的搜索结果只显示文件中发现匹配模式的文件名；而如果搜索单个文件，grep 命令的结果将显示每一个包含匹配模式的行。

例如，有一份 emp.data 员工清单，现在要搜索此文件，找出职位为 CLERK 的所有员工，则执行命令如下：

grep CLERK emp.data
#忽略输出内容

如果只想知道职位为 CLERK 的员工的人数，可以使用“-c”选项，执行命令如下：

grep -c CLERK emp.data
#忽略输出内容

以上是关于linux文本处理三剑客之 grep的主要内容，如果未能解决你的问题，请参考以下文章