java 正则表达式解析数据

Posted amcomputer

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了java 正则表达式解析数据相关的知识,希望对你有一定的参考价值。

1 背景

在写代码过程中,会遇到一些解析需求,需要把字符串里面的某些东西提取出来。和作者信息,生日,地址,年龄之类的。虽然用java 自带String.split()方法能够处理大部分需求了,但显得比较笨拙,因为需要去遍历数组。

2 实战

String dataId = “hello world my name is: DayDayUp. and my birthday is 8.9. unmappedReason,version”;

对于上面这个字符串,现在需要我们把DayDayUp获取出来。则需要先写提取的表达式,
String REGEX = “name is:(.*?)\\. and”;
整体逻辑如下:


    @Test
    public void spliteAppNameTest2() 
        String dataId = "hello world my name is: DayDayUp. and my birthday is 8.9. unmappedReason,version";
        String REGEX = "name is:(.*?)\\\\. and";

        System.out.println(getPatternCode(dataId,REGEX));
    

    public static String getPatternCode(String dataId, String rgex) 
        if (StringUtils.isEmpty(dataId)) 
            return null;
        

        // 匹配的模式
        Pattern pattern = Pattern.compile(rgex);
        Matcher m = pattern.matcher(dataId);
        while (m.find()) 
            return m.group(1);
        
        return null;
    

输出: DayDayUp
getPatternCode()封装了具体的逻辑。如果找到,即满足正则表达式规则,则返回第一个分分组。
ps: 需要用(.?)来提取-补获组,.?表示非贪婪式匹配。.*表示贪婪式匹配。

3 思考

获取生日如何写呢?

 @Test
    public void spliteAppNameTest2() 
        String dataId = "hello world my name is: DayDayUp. and my birthday is 8.9. unmappedReason,version";
        String REGEX = "birthday is (.*?)\\\\. unmappedReason";

        System.out.println(getPatternCode(dataId,REGEX));
    

    public static String getPatternCode(String dataId, String rgex) 
        if (StringUtils.isEmpty(dataId)) 
            return null;
        

        // 匹配的模式
        Pattern pattern = Pattern.compile(rgex);
        Matcher m = pattern.matcher(dataId);
        while (m.find()) 
            return m.group(1);
        
        return null;
    

输出:8.9

4 进阶

思考:如何捕获多条数据呢?
这个场景在爬虫场景比较多,如提取列表页中图片url地址或者图片名字时候。下面是一个简化例子,大家可以自己改造一下,就能在很多场景中使用了。
目标: 把字符串中2个生日日期提取出来,即8.9 和1.1

 @Test
    public void spliteAppNameTest2() 
        String dataId =  "hello world my name is: DayDayUp. and Zhang's birthday is 8-9. besides, Yang's birthday is 1-1. besides";
        String REGEX = "birthday is (.*)\\\\.";

        System.out.println(getPatternCode(dataId,REGEX));
    

输出:

8-9. besides, Yang's birthday is 1-1

这里使用(.*)贪婪匹配,直接匹配了全部字符串。所以输出比较长。

  @Test
    public void spliteAppNameTest2() 
        String dataId = "hello world my name is: DayDayUp. and Zhang's birthday is 8-9. besides, Yang's birthday is 1-1. besides";
        String REGEX = "birthday is (.*?)\\\\.";

        System.out.println(getPatternCode(dataId,REGEX));
    

    public static StrBuilder getPatternCode(String dataId, String rgex) 
        if (StringUtils.isEmpty(dataId)) 
            return null;
        
        if (StringUtils.isEmpty(rgex)) 
            rgex = REGEX;
        
        // 匹配的模式
        Pattern pattern = Pattern.compile(rgex);
        Matcher m = pattern.matcher(dataId);
        StrBuilder sb = new StrBuilder();
        while (m.find()) 
            sb.append(m.group(1)+"\\n");
           // m.appendReplacement(sb,);
           // return m.group();
        
        return sb;
    

输出:

8-9
1-1

改动点,
1 使用了 StrBuilder sb = new StrBuilder(); 来保存补获组 sb.append(m.group(1)+“\\n”);
2 String REGEX = “birthday is (.*?)\\.”;

5 总结

还是python写正则表达式要简单一点,java写起来代码量比较多,也比较复杂。特别是里面\\,需要用2个\\来表示一个\\。刚开始还不能很好适应。

以上是关于java 正则表达式解析数据的主要内容,如果未能解决你的问题,请参考以下文章

java的正则表达式解析

使用 Python 正则表达式解析 Java Arrays.deepToString 输出的浮点字符串

java解析xml ②之正则表达式配合解析

使用正则表达式解析表 - Java

使用 Java 正则表达式模式解析字符串?

Java中的String类下的正则表达式运用附带编程题解析