shell中字符串的截取方法cut基本用法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了shell中字符串的截取方法cut基本用法相关的知识,希望对你有一定的参考价值。

一、八种基本字符截取方法:

     1、使用 # 号操作符。从边删除第一次出现 substr 左边字符(包括substr ),保留右边字符。

          用法为 #*substr

例如:

技术分享

即删除从左边开始到第一个"//"及其左边所有字符

     2、使用 ## 号操作符。从边删除最后一次出现substr 左边字符(包括substr ),保留右边字符。

          用法为 ##*subst

例如:

技术分享

即删除最后出现的"/"及其左边所有字符

     3、使用 % 号操作符。从边删除第一次出现 substr 右边字符(包括substr ),保留左边字符。

          用法为 %substr

例如:

技术分享

即删除从右边开始到第一个"/"及其右边所有字符

     4、使用 %% 号操作符。从边删除最后一次出现 substr 右边字符(包括substr ),保留左边字符。

          用法为 %%substr*

例如:

技术分享

即删除从右边开始到最后一个"/"及其右边所有字符

    5、从边第几个字符开始以及字符的个数

          用法为 :start:len

例如:

技术分享

即 0 表示左边第一个字符开始,5 表示字符的总个数。

     6、从边第几个字符开始一直到结束

          用法为 :start

例如:

技术分享

即 7 表示左边第8个字符开始

     7、从边第几个字符开始以及字符的个数

          用法为 :0-start:len

例如:

技术分享

即 0-10 表示右边算起第10个字符开始,6 表示字符的个数。

     8、从边第几个字符开始一直到结束

     用法为 :0-start

例如:

技术分享

即 0-4 表示右边算起第4个字符开始。


二、使用 cut 进行字符串截取

     cut 命令接受三个定位方法:

1、字节(bytes),用选项-b;

2、字符(characters),用选项-c;

3、域(fields),用选项-f。


三、字节 -b 的使用

     (1) 以“字节”定位

例如:

如果我们想提取每一行的第3个字节,就这样:

技术分享技术分享

     注:-b后面可以设定要提取哪一个字节,其实-b和3之间没有空格也是可以的,但推荐有空格 :)


     (2) 如果“字节”定位中,我想提取第3,第4、第5和第12个字节

-b支持形如3-5的写法,而且多个定位之间用逗号隔开就成了。

例如:

技术分享技术分享

但有一点要 注意,cut命令如果使用了-b选项,那么执行此命令时,cut会先把-b后面所有的定位进行从小到大排序,然后再提取。可不能颠倒定位的顺序哦。

例如:

技术分享


     (3)类似于“3-5”这样的小技巧

例如:

技术分享技术分享

     注:-3表示从第一个字节到第三个字节,而3-表示从第三个字节到行尾。可以看到这两种情况下,都包括了第三个字节“e”。如果执行who|cut -b -3,3-,是输出整行,而不会出现连续两个重叠的e的。


四、字符 -c 的使用

例如:

技术分享技术分享

     但是,-c 和 -b 怎么没有区别呢? 其实不然,只是因为这个例子举的不好,所以看不出来,who 输出的都是单字节字符,所以用-b和-c没有区别,如果提取中文,区别就出来了。

例如:

技术分享技术分享

      如上,用 -c 则会以字符为单位,输出正常;而 -b 只会以字节(8位二进制位)来计算,输出就是乱码。当遇到多字节字符时,可以使用 -n 选项,-n 用于告诉 cut 不要将多字节字符拆开。

例如:

技术分享技术分享


五、域 -f 是怎么回事呢?

     (1)为什么会有“域”的提取呢,因为刚才提到的 -b 和 -c 只能在固定格式的文档中提取信息,而对于非固定格式的信息则束手无策,而“域”可以。

     比如/etc/passwd文件,它并不像 who 的输出信息那样具有固定格式,而是比较零散的排放。但是,冒号在这个文件的每一行中都起到了非常重要的作用,冒号用来隔开每一个项。

     cut命令提供了这样的提取方式,具体的说就是设置“间隔符”,再设置“提取第几个域”,就OK了。

例如(/etc/passwd的前五行内容):

技术分享技术分享

     用 -d 设置间隔符为冒号:,然后用 -f 设置要取的是第一个域。

      (2)在设定 -f 时,也可以使用 3-5 或者 4- 类似的格式:

技术分享

技术分享

     (3)如果遇到空格和制表符时,怎么办?

     有时候制表符确实很难辨认,有一个方法可以看出一段空格到底是由若干个空格组成的还是由一个制表符组成的。

技术分享技术分享

     如果是制表符(TAB),那么会显示为 \t 符号,如果是空格,就会原样显示。通过此方法就可以判断制表符和空格了。

     应该在cut -d中用什么符号来设定制表符或空格呢?其实,cut 的 -d 选项的默认间隔符就是制表符\t,所以当你就是要使用制表符的时候,完全就可以省略-d选项,而直接用-f来取域就可以了。

例如:

技术分享技术分享


本文出自 “GREEN” 博客,请务必保留此出处http://green906.blog.51cto.com/10697569/1791108

以上是关于shell中字符串的截取方法cut基本用法的主要内容,如果未能解决你的问题,请参考以下文章

shell脚本之cut,sort,uniq,tr工具用法,Here Document和Expect用法

shell脚本中数组的基本用法

cut/sed常用积累

如何用shell提取文件中指定的字符串

cut命令详解

大数据之Shell:Shell工具(cut)