字符串匹配----后缀数组算法

Posted 2021-02-05 xiaoyh

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了字符串匹配----后缀数组算法相关的知识，希望对你有一定的参考价值。

一、什么是后缀数组：

　　字符串后缀Suffix 指的是从字符串的某个位置开始到其末尾的字符串子串。后缀数组 Suffix Array(sa) 指的是将某个字符串的所有后缀按字典序排序之后得到的数组，不过数组中不直接保存所有的后缀子串，只要记录后缀的起始下标就好了。

　　比如下面在下面这张图中，sa[8] = 7,表示在字典序中排第9的是起始下标为7的后缀子串，这里还有一个比较重要的数组rank，rank[i] : sa[i]在所有后缀中的排名，比如rk[5]=0，表示后缀下标为5的子串在后缀数组中排第0个; rank数组与sa数组互为逆运算，rk[sa[i]]=i;

　　　　技术分享图片

　　现在假如我们已经求出来了后缀数组，然后直接对已经排好序的后缀数组进行二分查找，这样就能匹配成功了，下面贴出代码：

import java.util.Arrays;

public class SuffixArrayTest {
    public static void main(String[] args) {
        match();  // 得到结果是5
    }
    
    static void match(){
        String s = "ABABABABB";
        String p = "BABB";
        Suff[] sa = getSa(s); // 后缀数组
        int l = 0;
        int r = s.length()-1;
        // 二分查找 ，nlog(m)
        while(r>=l){
            int mid = l + ((r-l)>>1);
            // 居中的后缀
            Suff midSuff = sa[mid];
            String suffStr = midSuff.str;
            int compareRes;
            // 将后缀和模式串比较，O(n);
            if (suffStr.length()>=p.length()) {
                compareRes = suffStr.substring(0, p.length()).compareTo(p);
            }else {
                compareRes = suffStr.compareTo(p);
            }
            // 相等了 输出后缀的起始位置
            if(compareRes == 0){
                System.out.println(midSuff.index);
                break;
            }else if (compareRes<0) {
                l = mid + 1;
            }else {
                r = mid - 1;
            }
        }
    }
    /**
     * 直接对所有后缀排序，因为字符串的比较消耗O(N),所以整体为N²log(N)
     * @param src
     * @return
     */
    public static Suff[] getSa(String src){
        int strLength = src.length();
        // sa 即SuffixArray,后缀数组  
        // sa 是排名到下标的映射,即sa[i]=k说明排名为i的后缀是从k开始的
        Suff[] suffixArray = new Suff[strLength];
        for (int i = 0; i < strLength; i++) {
            String suffI = src.substring(i);   //截取后缀
            suffixArray[i] = new Suff(suffI, i);
        }
        Arrays.sort(suffixArray);   //依据Suff的比较规则进行排序
        return suffixArray;
    }
    
    static class Suff implements Comparable<Suff>{

        String str;  //后缀内容
        int index;   //后缀的起始下标
        
        public Suff(String str, int index) {
            super();
            this.str = str;
            this.index = index;
        }

        @Override
        public int compareTo(Suff o2) {
            return this.str.compareTo(o2.str);
        }
        @Override
        public String toString() {
            return "Suff{"+"str=‘"+str+"‘"+",index="+index+"}";
        }
        
    }
}

二、倍增法　　

　　上面求后缀数组的方式时间复杂度为n²log(n)，一般来说，时间复杂度只要达到了n平方级别都要想办法降低，于是就有一种叫做倍增法的方法来求后缀数组，基本思想就是：

　　　1、先将每个字符排序得到sa，rank数组，

　　　2、然后给每个字符增添一个字符，这样就变成了两个字符，最后一个字符无法增添字符，就需要处理好边界问题。然后就是排序，排序规则的话就需要自定义规则

　　　3、然后再在两个字符的基础上添加两个字符，就变成四个字符，然后再在上一次排序的规则上进一步排序。然后八个字符......

　　最主要的降低时间复杂度的方式就是根据每一步更新后的rank数组来进行下一步的排序，这样前面已经排好序的就不用比较了。嗯。。。具体的倍增法的思想的话只有自己在具体应用代码的时候慢慢琢磨，通过不断地调试慢慢理解。这里的代码直接都是封装好了方法直接调用即可。下面贴出代码：

  1 import java.util.Arrays;
  2 
  3 public class SuffixArray {
  4     public static void main(String[] args) {
  5         match();  // 得到结果是5
  6     }
  7     
  8     static void match(){
  9         String s = "ABABABABB";
 10         String p = "BABB";
 11 //        SuffixArray.Suff[] sa = SuffixArray.getSa(s); // 后缀数组
 12         Suff[] sa = getSa2(s); // 后缀数组
 13         int l = 0;
 14         int r = s.length()-1;
 15         // 二分查找 ，nlog(m)
 16         while(r>=l){
 17             int mid = l + ((r-l)>>1);
 18             // 居中的后缀
 19             Suff midSuff = sa[mid];
 20 //            String suffStr = midSuff.str;
 21             String suffStr = s.substring(midSuff.index);
 22             int compareRes;
 23             // 将后缀和模式串比较，O(n);
 24             if (suffStr.length()>=p.length()) {
 25                 compareRes = suffStr.substring(0, p.length()).compareTo(p);
 26             }else {
 27                 compareRes = suffStr.compareTo(p);
 28             }
 29             // 相等了 输出后缀的起始位置
 30             if(compareRes == 0){
 31                 System.out.println(midSuff.index);
 32                 break;
 33             }else if (compareRes<0) {
 34                 l = mid + 1;
 35             }else {
 36                 r = mid - 1;
 37             }
 38         }
 39     }
 40     
 41     
 42     /**
 43      * nlg²n 构建后缀数组
 44      * 
 45      * @param src
 46      * @return
 47      */
 48     public static Suff[] getSa2(String src) {
 49         int n = src.length();
 50         Suff[] sa = new Suff[n];
 51         for (int i = 0; i < n; i++) {
 52             sa[i] = new Suff(src.charAt(i), i, src);// 存单个字符,接下来排序
 53         }
 54         Arrays.sort(sa);
 55 
 56         /** rk是下标到排名的映射 */
 57         int[] rk = new int[n];// suffix array
 58         rk[sa[0].index] = 1;
 59         for (int i = 1; i < n; i++) {
 60             rk[sa[i].index] = rk[sa[i - 1].index];
 61             if (sa[i].c != sa[i - 1].c)
 62                 rk[sa[i].index]++;
 63         }
 64         // 倍增法
 65         for (int k = 2; rk[sa[n - 1].index] < n; k *= 2) {
 66 
 67             final int kk = k;
 68             Arrays.sort(sa, (o1, o2) -> {
 69                 // 不是基于字符串比较,而是利用之前的rank
 70                 int i = o1.index;
 71                 int j = o2.index;
 72                 if (rk[i] == rk[j]) {// 如果第一关键字相同
 73                     if (i + kk / 2 >= n || j + kk / 2 >= n)
 74                         return -(i - j);// 如果某个后缀不具有第二关键字,那肯定较小,索引靠后的更小
 75                     return rk[i + kk / 2] - rk[j + kk / 2];
 76 
 77                 } else {
 78                     return rk[i] - rk[j];
 79                 }
 80             });
 81             /*---排序 end---*/
 82             // 更新rank
 83             rk[sa[0].index] = 1;
 84             for (int i = 1; i < n; i++) {
 85                 int i1 = sa[i].index;
 86                 int i2 = sa[i - 1].index;
 87                 rk[i1] = rk[i2];
 88                 try {
 89                     if (!src.substring(i1, i1 + kk).equals(src.substring(i2, i2 + kk)))
 90                         rk[i1]++;
 91                 } catch (Exception e) {
 92                     rk[i1]++;
 93                 }
 94             }
 95         }
 96 
 97         return sa;
 98     }
 99     
100     public static class Suff implements Comparable<Suff> {
101         public char c;// 后缀内容
102         private String src;
103         public int index;// 后缀的起始下标
104 
105         public Suff(char c, int index, String src) {
106             this.c = c;
107             this.index = index;
108             this.src = src;
109         }
110 
111         @Override
112         public int compareTo(Suff o2) {
113             return this.c - o2.c;
114         }
115 
116         @Override
117         public String toString() {
118             return "Suff{" + "char=‘" + src.substring(index) + ‘‘‘ + ", index=" + index + ‘}‘;
119         }
120     }
121 }

三、高度数组

　　高度数组是后缀数组伴生的一个东西。假设有字符串"ABABABB"，那它的所有后缀为，以及后缀数组为：

　　　　　技术分享图片

　　高度数组为所有后缀排好序之后的相邻两个后缀之间的最大公共前缀(LCP),比如height[1],看下标为1的后缀ABABB与上一个下标0的后缀ABABABB,最大公共前缀为ABAB，四个，那么height[1] = 4其余的也是一样，那么可以得到高度数组为height[] = {0,4,2,0,1,3,1}

　　高度数组有一个重要规律就是：上一个下标i假如有k个公共前缀，并且k>0，那么下一个下标至少有一个k-1个公共前缀，那么前k个字符是不用比较的。

    static int[] getHeight(String src,Suff[] sa){
        // Suff[] sa = getSa2(src);
        int strLength = src.length();
        int []rk = new int[strLength];
        // 因为原来的sa数组是按照字符串相同排名相同，现在调整排名为不重复的排名，重新排名后得到数组rk。
        // 将rank表示为不重复的排名即0~n-1
        for (int i = 0; i < strLength; i++) {
            rk[sa[i].index] = i;
        }
        int []height = new int[strLength];
        // （存在的规律是上一个下标i假如有k个公共前缀，并且k>0，
        //  那么下一个下标至少有一个k-1个公共前缀，那么前k个字符是不用比较的）
        // 利用这一点就可以O(n)求出高度数组
        int k = 0;
        for(int i=0;i<strLength;i++){
            int rk_i = rk[i];  // i后缀的排名
            if (rk_i==0) {
                height[0] = 0;
                continue;
            }
            int rk_i_1 = rk_i - 1;
            int j = sa[rk_i_1].index;// j是i串字典序靠前的串的下标
            if (k > 0)
                k--;

            for (; j + k < strLength && i + k < strLength; k++) {
                if (src.charAt(j + k) != src.charAt(i + k))
                    break;
            }
            height[rk_i] = k;
            
        }
        return height;
    }

以上是关于字符串匹配----后缀数组算法的主要内容，如果未能解决你的问题，请参考以下文章