awk中如何用正则表达式判断某位数值的位数?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了awk中如何用正则表达式判断某位数值的位数?相关的知识,希望对你有一定的参考价值。

比如有如下记录:
1|无缝钢管|GB8163|D114x5
2|热压弯头|GB12459|DN100
。。。。若干条记录
10|连接件|HG-16|DN100
11|支架|HG-16|DN100
。。。。若干条记录
现在想用两个数组将第一位是各位数的记录和第一位是两位数的记录分开,即将1~9条存储于Lines1[1]~Lines1[9]中,然后将10~99存储于Lines2[1]~Lines2[99]中。
想请教一下,在用if判断时,正则表达式应该如何表达?
谢谢

参考技术A #!/bin/bash

output()

cat<<EOF
1|23
2|24
10|30
11|44
EOF


output | awk -F"|" '
        if($1 ~ /^[0-9]1,1$/)
                line1[$1]=$2
        else if($1 ~ /^[0-9]2,2$/)
                line2[$1]=$2

END 
        print "line1 contents"
        for(key in line1)
                print "key " key " value " line1[key]

        print "line2 contents"
        for(key in line2)
                print "key " key " value " line2[key]
'

本回答被提问者采纳
参考技术B 正则表达式匹配开头的行数么?
那么模式应该写成
^[0-9]\1
花括号后面的数字表示数字位数
^^[0-9]\2 就是两位,依此类推
参考技术C 给他们赋值=X啊!来判断!

shell脚本——正则表达式Sed与Awk文本处理工具详解

一、正则表达式概述

1、正则表达式的概念

通常用于判断语句中,用来检查某一字符串是否满足某一格式

  • 正则表达式分为基础正则表达式与扩展正则表达式
  • 它不是一个工具程序,而是一个字符串处理的标准依据
  • 使用单个字符串搜索、匹配一系列符合某个语法规则的字符串
  • 它是由普通字符(a~z),以及特殊字符(又叫“元字符”)组成
    • 普通字符包括大小写字母、数字、标点符号及一些其他符号
    • 元字符是指再正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式

2、正则表达式支持的Linux文本处理工具

文本处理工具基础正则表达式扩展正则表达式
vi编辑器支持
grep支持
egrep支持支持
sed支持
awk支持支持
#grep和awk应用于扩展正则表达式
grep -E
awk -r

3、基础正则表达式常见的字符

支持的工具:grep、egrep、sed、awk

字符含义
\\转义字符,用于取消特殊符号的含义,例:!、\\n、$等
^匹配字符串开始的位置,例:^a 、^the、 ^#、 ^$等
$匹配字符串结束的位置,例:world$匹配以world结尾的行
.匹配除\\n(换行)以外的任意一个字符
*匹配前面的子表达式0次或多次
?匹配前面的子表达式0次或1次,有或无
[list]匹配list列表中的一个字符,如:[0-9]匹配任一位数字
[^list]匹配不在list列表中的一个字符,如:[^0-9]匹配任意一位非数字字符
{n}匹配前面的子表达式n次,如:[0-9]\\{2\\}匹配两位数字
{n,}匹配前面的子表达式不少于n次,如:[0-9]\\{2,\\}表示两位及两位以上的数字
{n,m}匹配前面的子表达式n到m次,如:[a-z]\\{2,3]匹配两到三位的小写字母

注:egrep、awk使用{n}、{n,}、{n,m}匹配时"{}“前不用加”",(m>=n)

4、扩展正则表达式元字符

元字符作用
+匹配前面的子表达式1次以上,如:go+d,将匹配至少一个o
匹配前面的子表达式0次或1次,如:go?d,将匹配gd或god
()将()号的字符串作为一个整体,如:(xyz)+,将匹配xyz整体1次以上
l以或的方式匹配字符串,将匹配good或者great

5、正则表达式匹配E-mail地址

用户名@

^([a-zA-Z0-9_\\-\\.\\+]+)@

子域名

([a-zA-Z0-9_\\-\\.]+)

.顶级域名

\\.([a-zA-Z]{2,5})$

二、正则表达式应用实例

1、筛选南京本地号码

要求

#025开头,号码为8位数,号码一般都是以5或者8开头

#中间可以没有空格,区号和号码之间可以有空格,-,区号可以用()括起来

02588888888
0255555555555
025-12345678
(025) 88551234
025 54321678
025ABC88888
01012345678
0125 12345678
025-85321678

算法思路

区号:(025)、025
^(\\(?025\\)?)   #筛选以025或(025)开头的字符串

区号与号码之间
[ -]?  #筛选区号与号码之间空格、-、或没有字符的字符串

号码
[58][0-9]{7}$  #筛选以5或8开头的,后接7位数结尾的字符串

egrep "^(\\(?025\\)?)[ -]?[58][0-9]{7}$" testhaoma

在这里插入图片描述
在这里插入图片描述
方法二awk
在这里插入图片描述

2、邮件

要求

xxxxxx@xxx.com(顶级域)
xxxxxx@xxx.com.cn(二级域.顶级域)

用户名可以是大小写英文字母,数字,中间可携带. - _ # ! 这些符号,写长度不小于6位数

算法思路

用户名@(长度不小于6,可以是大小写字母 数字 - _ . # !)
子域[.二级域]
.顶级域(字符长度一般在2到5)

用户名@
^([A-Za-z0-9\\.\\#\\!\\_\\-]{6,})@

子域[/二级域]
([A-Za-z0-9_\\-\\.]+)  #加号代表至少匹配一次,二级域三级域等

顶级域(2-5个字符)
\\.([A-Za-z]{2,5})$

egrep "^([A-Za-z0-9\\.\\#\\!\\_\\-]{6,})@([A-Za-z0-9_\\-\\.]+)\\.([A-Za-z]{2,5})$" 文件名

在这里插入图片描述
在这里插入图片描述

以上是关于awk中如何用正则表达式判断某位数值的位数?的主要内容,如果未能解决你的问题,请参考以下文章

在前台页面中如何用正则表达式判断文本框中

Oracle中如何用正则表达式检测某个字段是不是带有日文字符

如何用正则表达式限制文本框输入数字位数?

ultraedit中如何用正则表达式搜索存在的中文?

java中如何用Pattern和Matcher类验证日期和时间,怎么写正则表达式?

Java中如何用正则表达式来提取string中两个/里面之间的内容?