字符串模式匹配算法 Sunday算法

Posted 王景迁

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了字符串模式匹配算法 Sunday算法相关的知识,希望对你有一定的参考价值。

  Sunday算法是Daniel M.Sunday于1990年提出的字符串模式匹配算法。相对比较KMP和BM算法而言,简单了许多。

  Sunday算法的思想类似于BM算法中的坏字符思想,有点像其删减版。差别在于Sunday算法在失配之后,是取目标串中当前和模式串匹配的部分后面一个位置的字符来做坏字符匹配。其时间复杂度和BM算法差不多,平均性能的时间复杂度也为O(n)。Sunday算法的位移比BM算法更大,所以Sunday算法的效率比BM算法更高,在匹配随机字符串时效率比其他匹配算法快。最差情况的时间复杂度为O(n * m),考虑如下目标串:baaaabaaaabaaaabaaaa,在里面搜索aaaaa,没有匹配位置。如果用Sunday算法,坏字符大部分都是a,而模式串中又全部都是a,所以在大部分情况下,失配后模式串只能往右移动1位。

       匹配原理:从前往后匹配,如果不匹配,则根据母串S对齐部分的最后一个字符的下一个字符进行判断:如果该字符出现在模板串T中,则选择最右出现的位置进行对齐;否则,直接跳过该匹配区域。

  母串S:s e a r c h s u b s t r i n g

  模板串T:s u b s t r i n g

  开始匹配(第1个字符):

  s e a r c h s u b s t r i n g

  s u b s t r  i n g

  继续下一字符匹配(第2个字符):

  s e a r c h s u b s t r i n g

  s u b s t r  i  n g

  出现不匹配情况,查找母串对齐部分的最后一个字符的下一个字符s。在T中,字符s出现两次,按照原理,选择最右位置出现的s进行对齐,那么可以得到:

  s e a r c h s u b s t r i n g

                   s u b s t r i n g

  假设母串S为:s e a r c h s u b z t r i n g

  那么当匹配到上述情况时,字符z在T中没有出现,那么就可以得到下面的情况:

  s e a r c h s u b z t r i n g

         s u b s t r i n g

  这就是其原理的两种情况。

  Java语言实现(s表示母串,t表示模板串):

 1 public class Sunday {
 2     // 数组容量可变,依字符范围而定
 3     private static final int MAX_SIZE = 65536;
 4     // 匹配失败时的移动距离
 5     private static final int[] MOVE_LENGTH = new int[MAX_SIZE];
 6     
 7     // 设置移动距离
 8     private static void setMoveLength(int tLen, String t) {
 9         int tLenPlusOne = tLen + 1;
10         // 默认子串中的任何字符不出现在母串中,移动距离是子串长度 + 1
11         for (int i = 0; i < MAX_SIZE; i++) {
12             MOVE_LENGTH[i] = tLenPlusOne;
13         }
14         
15         // 确定母串匹配部分最后一个字符的下一个字符在子串中最右出现的位置
16         for (int i = 0; i < tLen; i++) {
17             MOVE_LENGTH[t.charAt(i)] = tLen - i;
18         }
19     }
20     
21     // 顺序查找指定子串在指定母串中首次出现的位置
22     public static int indexOf(String s, String t) {
23         // 如果两个字符串至少有一个是null
24         if (s == null || t== null) {
25             return -1;
26         }
27         
28         // 获取字符串长度
29         int sLen = s.length();
30         int tLen = t.length();
31         // 设置移动距离
32         setMoveLength(tLen, t);
33         
34         // i是母串遍历下标
35         for (int i = 0; i < sLen; ) {
36             // j是子串遍历下标
37             int j = 0;
38             // 不断匹配字符
39             while (j < tLen && i + j < sLen && s.charAt(i + j) == t.charAt(j)) {
40                 j++;
41             }
42             
43             // 如果查找成功
44             if (j == tLen) {
45                 return i;
46             }
47             
48             // 向右移动距离最小是1,i + tLen是匹配时最后一个字符下标
49             // 如果该下标越界,则查找失败
50             if (i + tLen >= sLen) {
51                 return -1;
52             }
53             
54             // 右移对齐
55             i += MOVE_LENGTH[s.charAt(i + tLen)];
56         }
57         
58         // 查找失败
59         return -1;
60     }
61     
62     public static void main(String[] args) {
63         String s = "searchsubstring";
64         String t = "substring";
65         System.out.println(indexOf(s, t));
66     }
67 
68 }

  结果:

6

 

  参考资料

  【模式匹配】之 —— Sunday算法

  数据结构与算法系列----Sunday算法详解

       BF、KMP、BM、Sunday算法讲解

以上是关于字符串模式匹配算法 Sunday算法的主要内容,如果未能解决你的问题,请参考以下文章

Sunday算法模板

字符串匹配之Sunday算法

Sunday算法

模式匹配——Sunday算法

字符串匹配——Sunday算法(C++)

Sunday算法