Shell脚本处理文本换行问题
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Shell脚本处理文本换行问题相关的知识,希望对你有一定的参考价值。
Shell脚本处理文本换行问题文本内容如图。
一个wsdl文件,里面两个import标签 第一个换行了,不会通过namespaces获取到location,所以想做个类似于格式刷的工具。将两个import标签 开始符和结束符中间如果有换行的,处理成图二不换行的效果,关键字只有import,里面的schemalocation和namespaces属性位置不一定哪个在前哪个在后,里面的值也是不固定,固定的只有import,所以不要用<import schemalocation 这种做关键字处理。
使用一个sed命令即可:
解释:
/<import/ 如果某行找到<import 则执行后面大括号中的内容
:go; 设置一个标签
/<\\/import>/! 查找</import> 如果没找到则执行大括号中的内容
N; ——再读取一行追加到模式空间
bgo; ——跳转到go标签
上面会循环一直将 从<import 开始 到</import> 结束的各行读到入模式空间
s/\\n//g; ——删除模式空间中所有的换行符
p——打印模式空间内容,即将跨行的import变成1行。
追问不好意思之前忘记说环境问题 aix小型机 用的ksh 命令我试了下 提示sed 大于8个字符。。
抱歉,aix不熟悉,不过aix中的sed命令不应该最大8个字符吧,大部分复杂点的命令都会超过这个限制
偷懒没写 -e,是不这个原因?
好的 我再查查 这个思路很赞
参考技术A 原内容<import xxxxxx="****************"
yyyyyyyyyyy="eeeeeeeeeeeee">
</import>
<import xxxxxx="****************" yyyyyyyyyyy="eeeeeeeeeeeee">
</import>
<import xxxxxx="****************" yyyyyyyyyyy="eeeeeeeeeeeee"></import>
通过命令
[root@localhost script]# cat test.wsdl |awk 'printf"%s",$0'|sed -e 's/<\/import>/<\/import>\n/g'
<import xxxxxx="****************" yyyyyyyyyyy="eeeeeeeeeeeee"></import>
<import xxxxxx="****************" yyyyyyyyyyy="eeeeeeeeeeeee"></import>
<import xxxxxx="****************" yyyyyyyyyyy="eeeeeeeeeeeee"></import>
思路是先去掉所有换行符,然后把<\import>替换为<\import>+换行
shell 中长命令的换行处理
考察下面的脚本:
emcc -o ./dist/test.html --shell-file ./tmp.html --source-map-base dist -O3 -g4 --source-map-base dist -s MODULARIZE=1 -s "EXPORT_NAME=\\"Test\\"" -s USE_SDL=2 -s LEGACY_GL_EMULATION=1 --pre-js ./pre.js --post-js ./post.js --cpuprofiler --memoryprofiler --threadprofilermain.cpp
这里在调用 emcc
进行 WebAssembly 编译时,组织了很多参数。整个命令都在一行之中,不是很好阅读和维护。
换行
可通过加 \\
的方式来进行换行拆分。
改造后看起来像这样,一个参数占一行:
emcc -o ./dist/test.html\\ --shell-file ./tmp.html\\ --source-map-base dist\\ -O3\\ -g4\\ --source-map-base dist\\ -s MODULARIZE=1\\ -s "EXPORT_NAME=\\"Test\\""\\ -s USE_SDL=2\\ -s LEGACY_GL_EMULATION=1\\ --pre-js ./pre.js\\ --post-js ./post.js\\ --cpuprofiler\\ --memoryprofiler\\ --threadprofiler\\ main.cpp
注释
通过 \\
(backslash) 换行后,整体阅读体验好了很多。进一步,我们想要为每个参数添加注释,发现不能简单地这样来:
emcc -o ./dist/test.html\\ # 目标文件 --shell-file ./tmp.html\\ # 模板文件 --source-map-base dist\\ -O3\\ -g4\\ --source-map-base dist\\ -s MODULARIZE=1\\ -s "EXPORT_NAME=\\"Test\\""\\ -s USE_SDL=2\\ -s LEGACY_GL_EMULATION=1\\ --pre-js ./pre.js\\ --post-js ./post.js\\ --cpuprofiler\\ --memoryprofiler\\ --threadprofiler\\ main.cpp
这样会导致整个 shell 脚本解析失败。
实测发现,也不能这样:
emcc -o\\ # 目标文件 ./dist/test.html\\ # 模板文件 --shell-file ./tmp.html\\ --source-map-base dist\\ -O3\\ -g4\\ --source-map-base dist\\ -s MODULARIZE=1\\ -s "EXPORT_NAME=\\"Test\\""\\ -s USE_SDL=2\\ -s LEGACY_GL_EMULATION=1\\ --pre-js ./pre.js\\ --post-js ./post.js\\ --cpuprofiler\\ --memoryprofiler\\ --threadprofiler\\ main.cpp
同样会导致解析失败。
说到底,通过 \\
拆分的命令,只是呈现上变成了多行,其中插入的注释是会破坏掉语义的。
但也不是没办法添加注释了,几经周转发现如下写法是可行的:
emcc -o ./dist/test.html `# 目标文件` \\ --shell-file ./tmp.html `# 模板文件` \\ --source-map-base dist `# source map 根路径` \\ -O3 `# 优化级别` \\ -g4 `# 生成 debug 信息` \\ --source-map-base dist\\ `# -s MODULARIZE=1\\` -s "EXPORT_NAME=\\"Test\\""\\ -s USE_SDL=2\\ -s LEGACY_GL_EMULATION=1\\ --pre-js ./pre.js\\ --post-js ./post.js\\ --cpuprofiler\\ --memoryprofiler\\ --threadprofiler\\ main.cpp
即通过 `
(backtick) 来包裹我们的注释,就不会破坏掉脚本的语义了,能够正确解析执行。
进一步,解决了注释的问题,如果我们不想要某一行,同时又不想删除,可以像下面这样来注释:
emcc -o ./dist/test.html `# 目标文件` \\ --shell-file ./tmp.html `# 模板文件` \\ --source-map-base dist `# source map 根路径` \\ -O3 `# 优化级别` \\ -g4 `# 生成 debug 信息` \\ --source-map-base dist\\ -s MODULARIZE=1\\ -s "EXPORT_NAME=\\"Test\\""\\ -s USE_SDL=2\\ -s LEGACY_GL_EMULATION=1\\ `# --pre-js ./pre.js`\\ --post-js ./post.js\\ --cpuprofiler\\ `# --threadprofiler`\\ --memoryprofiler\\ main.cpp
以上是关于Shell脚本处理文本换行问题的主要内容,如果未能解决你的问题,请参考以下文章