Shell脚本处理文本换行问题

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Shell脚本处理文本换行问题相关的知识,希望对你有一定的参考价值。

Shell脚本处理文本换行问题文本内容如图。
一个wsdl文件,里面两个import标签 第一个换行了,不会通过namespaces获取到location,所以想做个类似于格式刷的工具。将两个import标签 开始符和结束符中间如果有换行的,处理成图二不换行的效果,关键字只有import,里面的schemalocation和namespaces属性位置不一定哪个在前哪个在后,里面的值也是不固定,固定的只有import,所以不要用<import schemalocation 这种做关键字处理。

使用一个sed命令即可:

解释:

/<import/   如果某行找到<import   则执行后面大括号中的内容

:go;  设置一个标签

/<\\/import>/!    查找</import>   如果没找到则执行大括号中的内容

N;    ——再读取一行追加到模式空间

bgo; ——跳转到go标签

上面会循环一直将  从<import 开始  到</import> 结束的各行读到入模式空间

s/\\n//g;  ——删除模式空间中所有的换行符

p——打印模式空间内容,即将跨行的import变成1行。

追问

不好意思之前忘记说环境问题 aix小型机 用的ksh 命令我试了下 提示sed 大于8个字符。。

追答

抱歉,aix不熟悉,不过aix中的sed命令不应该最大8个字符吧,大部分复杂点的命令都会超过这个限制
偷懒没写 -e,是不这个原因?

追问

好的 我再查查 这个思路很赞

参考技术A 原内容

<import xxxxxx="****************"
yyyyyyyyyyy="eeeeeeeeeeeee">
</import>
<import xxxxxx="****************" yyyyyyyyyyy="eeeeeeeeeeeee">
</import>
<import xxxxxx="****************" yyyyyyyyyyy="eeeeeeeeeeeee"></import>
通过命令
[root@localhost script]# cat test.wsdl |awk 'printf"%s",$0'|sed -e 's/<\/import>/<\/import>\n/g'
<import xxxxxx="****************" yyyyyyyyyyy="eeeeeeeeeeeee"></import>
<import xxxxxx="****************" yyyyyyyyyyy="eeeeeeeeeeeee"></import>
<import xxxxxx="****************" yyyyyyyyyyy="eeeeeeeeeeeee"></import>
思路是先去掉所有换行符,然后把<\import>替换为<\import>+换行

shell 中长命令的换行处理

考察下面的脚本:

emcc -o ./dist/test.html --shell-file ./tmp.html --source-map-base dist -O3 -g4 --source-map-base dist -s MODULARIZE=1 -s "EXPORT_NAME=\\"Test\\"" -s USE_SDL=2 -s LEGACY_GL_EMULATION=1 --pre-js ./pre.js --post-js ./post.js --cpuprofiler --memoryprofiler --threadprofilermain.cpp

这里在调用 emcc 进行 WebAssembly 编译时,组织了很多参数。整个命令都在一行之中,不是很好阅读和维护。

换行

可通过加 \\ 的方式来进行换行拆分。

改造后看起来像这样,一个参数占一行:

emcc -o ./dist/test.html\\
    --shell-file ./tmp.html\\
    --source-map-base dist\\
    -O3\\
    -g4\\
    --source-map-base dist\\
    -s MODULARIZE=1\\
    -s "EXPORT_NAME=\\"Test\\""\\
    -s USE_SDL=2\\
    -s LEGACY_GL_EMULATION=1\\
    --pre-js ./pre.js\\
    --post-js ./post.js\\
    --cpuprofiler\\
    --memoryprofiler\\
    --threadprofiler\\
   main.cpp

注释

通过 \\(backslash) 换行后,整体阅读体验好了很多。进一步,我们想要为每个参数添加注释,发现不能简单地这样来:

emcc -o ./dist/test.html\\ # 目标文件
    --shell-file ./tmp.html\\ # 模板文件
    --source-map-base dist\\
    -O3\\
    -g4\\
    --source-map-base dist\\
    -s MODULARIZE=1\\
    -s "EXPORT_NAME=\\"Test\\""\\
    -s USE_SDL=2\\
    -s LEGACY_GL_EMULATION=1\\
    --pre-js ./pre.js\\
    --post-js ./post.js\\
    --cpuprofiler\\
    --memoryprofiler\\
    --threadprofiler\\
   main.cpp

这样会导致整个 shell 脚本解析失败。

实测发现,也不能这样:

emcc -o\\
    # 目标文件
    ./dist/test.html\\ 
     # 模板文件
    --shell-file ./tmp.html\\
    --source-map-base dist\\
    -O3\\
    -g4\\
    --source-map-base dist\\
    -s MODULARIZE=1\\
    -s "EXPORT_NAME=\\"Test\\""\\
    -s USE_SDL=2\\
    -s LEGACY_GL_EMULATION=1\\
    --pre-js ./pre.js\\
    --post-js ./post.js\\
    --cpuprofiler\\
    --memoryprofiler\\
    --threadprofiler\\
   main.cpp

同样会导致解析失败。

说到底,通过 \\ 拆分的命令,只是呈现上变成了多行,其中插入的注释是会破坏掉语义的。

但也不是没办法添加注释了,几经周转发现如下写法是可行的:

emcc -o ./dist/test.html `# 目标文件` \\
    --shell-file ./tmp.html `# 模板文件` \\
    --source-map-base dist `# source map 根路径` \\
    -O3 `# 优化级别` \\
    -g4 `# 生成 debug 信息` \\
    --source-map-base dist\\
    `# -s MODULARIZE=1\\`
    -s "EXPORT_NAME=\\"Test\\""\\
    -s USE_SDL=2\\
    -s LEGACY_GL_EMULATION=1\\
    --pre-js ./pre.js\\
    --post-js ./post.js\\
    --cpuprofiler\\
    --memoryprofiler\\
    --threadprofiler\\
   main.cpp

即通过 `(backtick) 来包裹我们的注释,就不会破坏掉脚本的语义了,能够正确解析执行。

进一步,解决了注释的问题,如果我们不想要某一行,同时又不想删除,可以像下面这样来注释:

emcc -o ./dist/test.html `# 目标文件` \\
    --shell-file ./tmp.html `# 模板文件` \\
    --source-map-base dist `# source map 根路径` \\
    -O3 `# 优化级别` \\
    -g4 `# 生成 debug 信息` \\
    --source-map-base dist\\
    -s MODULARIZE=1\\
    -s "EXPORT_NAME=\\"Test\\""\\
    -s USE_SDL=2\\
    -s LEGACY_GL_EMULATION=1\\
    `# --pre-js ./pre.js`\\
    --post-js ./post.js\\
    --cpuprofiler\\
    `# --threadprofiler`\\
    --memoryprofiler\\
   main.cpp

以上是关于Shell脚本处理文本换行问题的主要内容,如果未能解决你的问题,请参考以下文章

Shell 脚本写入文件换行的问题

shell脚本每行后面多了一个^M的原因和解决办法

运行 shell 脚本时出现“换行符”意外

shell脚本基础

shell脚本调用python处理中文错误的问题

Linux使用之grep,shell脚本(一)