Unix & Linux的文本处理工具 -- grep, sed & awk

Posted 2023-04-03

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Unix & Linux的文本处理工具 -- grep, sed & awk相关的知识，希望对你有一定的参考价值。

参考技术A 当大家看到标题时脑中闪过的大概是铺天盖地baidu, google出来的冗余的各类使用介绍，老生常谈希望能让大家对这三个文本工具有新的理解。

grep不做过多的介绍，打印出匹配的行，着重点在于输出结果并不对文本本身做修改。

有个关于grep的小故事，从sed和grep能追溯到最初的unix行编辑器ed而grep的命名代表 g(全局)/re(正则表达式)/p(打印)正是ed中全局打印行匹配的语法. grep自身的劣势在于无法实现多行匹配, 这时sed和awk相继出现弥补了grep的不足。

在进入sed的相关讨论之前，先就sed跟awk之间进行简单的比较。

可使用指定的脚本文件对相应文本进行编辑。

sed -f 'script filename' or stdin

awk -f 'script filename' or stdin

默认全局匹配并且拥有自身的主输入循环。

除去影响控制流的命令或语句(sed中: t，b; awk中continue，break等)默认对文本的每一读取的行依次执行相应的命令或语句。

awk相较于文本编辑工具更像是一门语言，awk条件、循环、判断语句有显性的标识(if，while，for...)；而sed只存在单一的判断逻辑(参考b label，t label)。

取出upstream awk_test对应的配置块:

Solution1：

Solution2：

相较之下Solution 2不需要复杂的判断，只需通过寻址来匹配并打印相应的文本；Solution 1更适合于进行多行匹配并替换。另一方面，Solution 1中sed通过创建多行空间模式并输出，而awk通过修改记录分隔符来实现多行匹配的不同。

awk拥有系统变量(FS，RS，OFS，ORS...)、内置函数、数组数据结构、传参(-v var=value)、引用系统命令(通过system() getline() close()函数)等。

awk除去主输入循环还存在BEGIN和END过程，用于某些在处理输入之前或者处理输入完成之后的操作。

sed也有过人之处，如果对sed的工作模式进行深入了解，会发现有一个叫做保持空间(hold space)的东西，下图大体描述了sed的工作模式，并且阐述了模式空间(pattern space)跟保持空间(hold space)之间的联系。模式空间跟保持空间中的内容可进行删除，交换等。

sed的指令集都是单一的字母，并且有option可直接修改文件。而awk可能需要指定内置变量的值，或是通过输出重定向保存为新的文件。

综上所述：

grep适用于单行匹配打印的场景；

sed适用于多行模式的替换的场景；

awk适合更多的逻辑表达式并输出的场景。

但三个命令都需要文本格式统一化的大前提，对于一个文本中的多种格式，可以先将同一种格式的内容整理到文件中，再将其他格式再分别整理到新的文件中。

统一文本格式固然重要，能准确匹配意图的正则表达式也必不可少，这也是大家头疼的部分。如若有机会，我会再跟大家介绍文本匹配中磨人的小妖精——正则表达式。它在不同的命令中、语言中支持不同的标准，更易于与Unix-like系统的file globbing混淆，常常让人咬牙切齿，欲罢不能。

在Linux/Unix系统下用iconv命令处理文本文件中文乱码问题

iconv命令是运行于linux/unix平台的文件编码装换工具。当我们在linux/unix系统shell查看文本文件时，常常会发现文件的中文是乱码的，这是由于文本文件的编码与当前操作系统设置的编码不同而引起的，这时可以使用iconv进行编码转换，从而解决乱码问题。

解决文本文件乱码问题分3步：1.确定文件编码,2.确定iconv是否支持此编码的转换,3.确定Linux/Unix操作系统编码,4.转换文件编码为与系统编码一致；下面通过对test.txt文件来举例。

1、使用file命令来确定文件编码：
$ file -bi gbk.txt | sed -e ‘s/.*[ ]charset=//‘ |tr ‘[a-z]‘ ‘[A-Z‘
ISO-8859-1
可见test.txt文件编码为ISO-8859-1编码。
2、使用iconv -l确定iconv是否支持此种编码的转换：
$ iconv -l | grep ISO-8859-1
ISO-8859-1//
ISO-8859-10//
ISO-8859-11//
ISO-8859-13//
ISO-8859-14//
ISO-8859-15//
ISO-8859-16//
3、确定Linux/Unix操作系统编码：
$ echo $LANG
zh_CN.UTF-8
当前操作系统坏境编码为"UTF-8"
4、转换编码
$ iconv -f ISO-8859-1 -t UTF-8 test.txt
测试
注：由于file命令常常会误判编码，如发现转换出来的编码依然是乱码，可将iconv -f的输入编码换成其他常用编码试试: GBK、BIG5、HZ、GB2312、GB18030、ASCII
iconv命令的详细语法:
iconv [选项..] 文件
选项：
-f 输入编码
-t 输出编码
-l 列出所有已知的编码
-o 输出文件

以上是关于Unix & Linux的文本处理工具 -- grep, sed & awk的主要内容，如果未能解决你的问题，请参考以下文章

在Linux/Unix系统下用iconv命令处理文本文件中文乱码问题

linux 常用工具总结sed 工具使用总结

DOS和UNIX文本文件之间相互转换的方法&批量

Shell学习：sed & gawk