Bash awk 打印匹配的分隔符

Posted 2023-03-15

技术标签:

【中文标题】Bash awk 打印匹配的分隔符【英文标题】：Bash awk print matched delimiter 【发布时间】：2018-02-19 14:30:09 【问题描述】：

有没有办法用 awk 打印当前匹配的分隔符？

例如：

awk -F '["RESTART" | "FAILURE" | "WARNING" | [:blank:]]2' 'FNR > 4  for (i=1; i<=NF; i++) print $i;' file

示例输入

XX      XXXX   RESTART 6666  XX X
XXXX    XXXX   WARNING 8888  YYY YYY
XXX     XXXX   INFORM  7777  XXXX XX

示例输出（必须）

XX
XXXX
RESTART
6666
XX X
XXXX
XXXX
WARNING
8888
YYY YYY
XXX
XXXX
INFORM
7777
XXXX XX

示例输出（现在）

XX
XXXX
6666
XX X
XXXX
XXXX
8888
YYY YYY
XXX
XXXX
INFORM
7777
XXXX XX

我使用超过 2 个空格作为列分隔符，但在某些情况下 (RESTART 6666) 或 (WARNING 8888) 两列没有被两个空格分隔，这就是为什么我必须使用内容 ( RESTART, WARNING) 作为分隔符，但是如果我使用内容作为分隔符，它不会被显示，所以我想显示/打印使用的分隔符（如果它是内容而不是空格）

主要问题是区分一个空格用作列分隔符和一个空格用作一列中的单词分隔符。我不能影响我必须处理的文件。

【问题讨论】：

你能用实际的分隔符和实际的文件内容发布问题吗？这些信息不充分添加了更多提示看起来很混乱。发布输入片段和期望的结果您的数据xxx 之间可以有一个空格吗？ @batMan 是的，查看示例输出 【参考方案1】：

awk：

awk 'gsub(/  +|\t/,"\n") print' file | awk '/RESTART|WARNING|FAILURE/gsub(/ /,"\n")  print'

gsub(/ +|\t/,"\n")：用换行符\n替换“2个或更多空格或\t”。这会将我们的文件转换为多行，其中每行可以包含多个单词，仅由单个空格分隔。

/RESTART|WARNING|FAILURE/gsub(/ /,"\n") ：如果行包含这 3 个单词之一，则将空格替换为 \n

您也可以使用 sed ：

sed "s/\s\s\+/\n/g; s/\(RESTART\|WARNING\|FAILURE\) /\1\n/g"  file

对于较旧的 sed 版本（主要在 MAC 中）：可能不支持 +，因此请修改为 *

sed "s/\s\s\s*/\n/g; s/\(RESTART\|WARNING\|FAILURE\) /\1\n/g"  file

s/\s\s\+/\n/g ：将 2 个或多个空格替换为单个 \ns/\(RESTART\|WARNING\|FAILURE\) /\1\n/g ：将空格替换为 \n 在您之后三个例外

输入：

line one      hello hello   RESTART 6666  XX X
line two    hello hello   WARNING 8888  YYY YYY
line three  hello hello      INFORM  7777  XXXX XX

输出：

line one
hello hello
RESTART
6666
XX X
line two
hello hello
WARNING
8888
YYY YYY
line three
hello hello
INFORM
7777
XXXX XX

【讨论】：

你确定它会给出那个输出吗？我在控制台中打印了完全没有拆分的完整文件您可能使用的是不支持 + 的旧 sed 版本（您在 mac 上吗？）.. 尝试我更新的答案... 带有 bash 2 的 solaris 5.8。这很有趣，我正要评论“如果您认为 MAC 上的 sed 已经过时，请等到看到 Solaris”:-)。是的，Solaris 上的默认 sed 不支持 \s 用于空格，也不支持 \| 或任何其他 ERE 元字符。 idk 如果 /usr/xpg4/bin 中有更新的 sed 但看看... @Sirion：你能试试这个awk 'gsub("( *)|\t","\n") print' file | awk '/RESTART/ || /WARNING/ || /FAILURE/gsub(" ","\n") print'。我也算过\t。如果您没有标签或不想计入标签，则可以将其从 gsub 中删除。让我回答一下，因为有些空格被截断了。【参考方案2】：

这是一种适用于任何 awk 的固定宽度字段方法（当然，Solaris 上旧的损坏的 awk /bin/awk 除外，您应该使用 /usr/xpg4/bin/awk 代替）：

$ cat tst.awk

    # identify the fields:
    nf = 0
    f[++nf] = substr($0,1,8)
    f[++nf] = substr($0,9,7)
    f[++nf] = substr($0,16,8)
    f[++nf] = substr($0,24,6)
    f[++nf] = substr($0,30)

    # remove leading/trailing white space from each field:
    for (i in f) 
        sub(/^[[:space:]]+/,"",f[i])
        sub(/[[:space:]]+$/,"",f[i])
    

    # print the fields:
    for (i=1; i<=nf; i++) 
        print NR, i, "<" f[i] ">"
    
    print "---"

$ awk -f tst.awk file
1 1 <XX>
1 2 <XXXX>
1 3 <RESTART>
1 4 <6666>
1 5 <XX X>
---
2 1 <XXXX>
2 2 <XXXX>
2 3 <WARNING>
2 4 <8888>
2 5 <YYY YYY>
---
3 1 <XXX>
3 2 <XXXX>
3 3 <INFORM>
3 4 <7777>
3 5 <XXXX XX>
---

如果您在 Solaris 上使用了 nawk，那么您必须将 [[:space:]] 替换为 [ \t]，因为它早于 POSIX 字符类，但不要使用 nawk，而是使用 /usr/xpg4/bin/awk。

如果这种方法适合您，可以修改为使用循环而不是 5 次显式 substr() 调用。

【讨论】：

【参考方案3】：

也许您可以将 GNU awk 的 split 与 seps 一起使用。 https://www.gnu.org/software/gawk/manual/html_node/String-Functions.html 告诉：

split(string, array [, fieldsep [, seps ] ])

seps 是一个 gawk 扩展，其中 seps[i] 是 array[i] 和 array[i+1] 之间的分隔符字符串。

【讨论】：

以上是关于Bash awk 打印匹配的分隔符的主要内容，如果未能解决你的问题，请参考以下文章