后缀数组(SA)

Posted hewanying0622

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了后缀数组(SA)相关的知识,希望对你有一定的参考价值。

20230502 后缀数组

后缀数组

Suffix Array
时间复杂度\\(O(n \\log n)\\)
主要涉及到三个数组:
\\(sa[i]\\)表示后缀数组,排名第\\(i\\)个的后缀编号
\\(rk[i]\\)表示第\\(i\\)个后缀的排名
\\(height[i]\\)表示排名为\\(i\\)\\(i-1\\)的后缀的lcp(最长公共前缀)

易得:\\(sa[rk[i]]=rk[sa[i]]=i\\)

求后缀数组get_sa

倍增实现,时间复杂度\\(O(n \\log_2n)\\)

定义:

  1. \\(x[i]\\),桶数组,里面存的是编号
  2. \\(fu[i]\\),辅助数组,里面记录上一次的sa与tong
  3. \\(cnt[i]\\),记录每一个桶中的数量

伪代码

void get_sa()
  按第一个字母排序:
  1~n 编桶号,记录cnt
  1~m 求cnt的前缀和
  n~1 倒序枚举,保序,按第一个字母排序,sa[cnt[x[i]]--]=i;
  
  1~n,k<<=1,倍增
    1. 按下一个关键字排序
	memset,cnt
	1~n fu->sa,把sa复制一遍
	1~n 向右移动k位,cnt[x[fu[i]+k]]++;
	1~m 求cnt前缀和
	n~1 倒序枚举更新sa
	
    2. 在按照之前排好的顺序排一次
	
    3. 把后缀数组放入桶数组中,这样桶中就存的是前面已排序的部分的编号了
	1~n fu->x
	m=0;
	1~n if前面的相同且这k位也相同,存入已有的桶中
	    else新建一个桶存入
		
    m==n? 已经排好了
  

求height数组

时间复杂度\\(O(n)\\)

定义

\\(height[i]=lcp(sa[i],sa[i-1])\\)

定理

\\(height[rk[i]] \\ge height[rk[i-1]]-1\\)
后缀1为全数组

证明:

  1. \\(height[i] \\le 1\\)时,定理一定成立
  2. \\(height[i] \\gt 1\\)
    \\(lcp(sa[rk[i-1]],sa[rk[i-1]-1])=height[rk[i-1]] \\gt 1\\)
    所以说后缀\\(i-1\\)和后缀\\(sa[rk[i-1]-1]\\)有着长度为\\(height[rk[i-1]]\\)的公共前缀
    我们不妨设这个公共前缀为\\(aA\\),其中\\(a\\)为一个字符,\\(A\\)为一个字符串
    那么后缀\\(i-1\\)\\(aAD\\),后缀\\(sa[rk[i-1]-1]\\)\\(aAB(B,D都为字符串,B可能为空串)\\)
    所以后缀\\(i\\)\\(AD\\),且存在后缀\\((sa[rk[i-1]-1]+1)\\)\\(AB\\),则\\(AB \\lt AD\\)
    由于\\(sa[rk[i]-1] \\lt AD\\)
    所以\\(AB \\le sa[rk[i]-1] \\lt AD\\)
    \\(AB\\)\\(AD\\)有公共前缀\\(A\\)
    所以\\(sa[rt[i]-1]\\)\\(i\\)一定有公共前缀\\(A\\)
    所以\\(height[rk[i]] \\ge height[rk[i-1]]-1\\)

得证

伪代码

void get_height()
  1~n 找rk
  1~n 枚举后缀
    如果是第一个 continue;
	k--;
	找到上一个
	while开始匹配
	更新height
  

例题:P3809 【模板】后缀排序

题目描述

代码

#include <bits/stdc++.h>
using namespace std;

const int maxn=2e6+10;
char s[maxn];
int n,m,x[maxn],fu[maxn],sa[maxn],cnt[maxn];

void get_sa()
  for(int i=1;i<=n;i++) cnt[x[i]=s[i]]++;
  for(int i=1;i<=m;i++) cnt[i]+=cnt[i-1];
  for(int i=n;i>=1;i--) sa[cnt[x[i]]--]=i;
  for(int k=1;k<=n;k<<=1)
  	memset(cnt,0,sizeof(cnt));
  	for(int i=1;i<=n;i++) fu[i]=sa[i];
  	for(int i=1;i<=n;i++) cnt[x[fu[i]+k]]++;
  	for(int i=1;i<=m;i++) cnt[i]+=cnt[i-1];
  	for(int i=n;i>=1;i--) sa[cnt[x[fu[i]+k]]--]=fu[i];
  	memset(cnt,0,sizeof(cnt));
  	for(int i=1;i<=n;i++) fu[i]=sa[i];
  	for(int i=1;i<=n;i++) cnt[x[fu[i]]]++;
  	for(int i=1;i<=m;i++) cnt[i]+=cnt[i-1];
  	for(int i=n;i>=1;i--) sa[cnt[x[fu[i]]]--]=fu[i];
  	for(int i=1;i<=n;i++) fu[i]=x[i];
	m=0;
	for(int i=1;i<=n;i++)
	  if(fu[sa[i]]==fu[sa[i-1]]&&fu[sa[i]+k]==fu[sa[i-1]+k]) x[sa[i]]=m;
	  else x[sa[i]]=++m; 
	if(m==n) break;
  

/*
int height[maxn],rk[maxn];
void get_height()
  for(int i=1;i<=n;i++) rk[sa[i]]=i;
  for(int i=1,k=0;i<=n;i++)
  	if(rk[i]==1) continue;
  	if(k) k--;
  	int j=sa[rk[i]-1];
  	while(i+k<=n&&j+k<=n&&s[i+k]==s[j+k]) k++;
  	height[rk[i]]=k;
  
*/
int main()
  /*2023.5.2 hewanying P3809 【模板】后缀排序 后缀数组SA*/ 
  scanf("%s",s+1);
  n=strlen(s+1);m=122;
  get_sa();
  for(int i=1;i<=n;i++)
    printf("%d ",sa[i]);
  printf("\\n");
  return 0;

关于后缀树组的其他定理

\\(lcp(sa[i],sa[j])= \\minheight[i+1 \\to j]\\)
不同子串的个数:\\(\\fracn(n+1)2-\\sum_i=2^nheight[i]\\)

后缀数组详解+模板

后缀数组

SA[] 第几名是谁

后缀数组:后缀数组 SA 是一个一维数组, 它保存 1..n 的某个排列 SA[1] ,SA[2],……,SA[n],并且保证 Suffix(SA[i]) < Suffix(SA[i+1]),1≤i<n 。也就是将 S 的 n 个后缀从小到大进行排序之后把排好序的后缀的开头位置顺次放入 SA 中。

Rank[] 谁是第几名名次数组:名次数组 Rank[i]保存的是 Suffix(i)在所有后缀中从小到大排列的“名次 ” 。

r[]:原始数据j当前字符串的长度,每次循环根据2个j长度的字符串的排名求得2j长度字符串的排名.

y[]:指示长度为2j的字符串的第二关键字的排序结果,通过存储2j长字符串的第一关键字的下标进行指示.

wv[]:2j长字符串的第一关键字的排名序号.

ws[]:计数数组,计数排序用到.

x[]:一开始是原始数据r的拷贝(其实也表示长度为1的字符串的排名),之后表示2j长度字符串的排名.

p:不同排名的个数.

片段

1.对长度为1的字符串进行排序(函数的第一步)

for(i=0;i<m;i++) ws[i]=0;
for(i=0;i<n;i++) ws[x[i]=r[i]]++;
for(i=1;i<m;i++) ws[i]+=ws[i-1];
for(i=n-1;i>=0;i--) sa[--ws[x[i]]]=i;

 

①用的是基数排序,也可以使用其它的排序

②r[]存储原本输入的字符串,x[]是对r[]的ASCII呈现(便于排序)

③m是一个估计数字,代表ASCII最大值,在循环中做边界

④n在这里是字符串的长度+1,后面的加加减减有所体现(貌似不介意直接用字符串的长度)

⑤最后一行比较难懂,但实践证明它确实是正确的,sa[i]=j表示第i名是j。

ws[i]是对第i及之前字符出现次数的累加,越往后ws[i]越大,而且对应的字符数值越大,举个例子,如果某一字符串为aaabaa,则a出现的次数为5,b出现的次数为1,按上述原理,可以看做ws[a]=5,ws[b]=6,固然a都在前5名,b在第六名。

对aabaaaab进行输出后为801345627,按照sa的定义对应起来

aabaaaab ~

23845679 1  非常正确

理解了这个,最后一行就能明白了

2.进行若干次基数排序

因为前面排序的名次可能有重复,所以要再进行若干次,直到所有的名次都不再相同

for(j=1,p=1; p<n; j*=2,m=p)
{
      for(p=0,i=n-j; i<n; i++) y[p++]=i;
      for(i=0; i<n; i++) if(sa[i]>=j) y[p++]=sa[i]-j;
      for(i=0; i<n; i++) wv[i]=x[y[i]];
      for(i=0; i<m; i++) Ws[i]=0;
      for(i=0; i<n; i++) Ws[wv[i]]++;
      for(i=1; i<m; i++) Ws[i]+=Ws[i-1];
      for(i=n-1; i>=0; i--) sa[--Ws[wv[i]]]=y[i];
      for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1; i<n; i++)
           x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
}

 

相对于上面函数的第一步来说,这一坨代码更加复杂了

①从最外层循环可以看出,j是处于倍增状态的,代表正在比较的每一小段字符串的长度

②循环内的第一行,循环了j-1次,是对后面几个数的提前处理(其第二关键字都为0)如图

 

即所有加0的数

③第二行,再翻上去看一眼sa的作用。首先要明白这一行抛弃了一些东西,

 

由于是对第二关键字的排序,第一关键字先不看,所以有一条件if(sa[i]>=j)

这条语句后面y[p++]=sa[i]-j,要减去j也是因为这个

到这里,第二关键字的排序就完成了

 

④开始第一关键字的排序

假设需要排序的数为92 71 10 80 63 90

那么y[]=3 4 6 2 1 5 即对第二关键字排序后名次递增所对应的序号

      x[]=10 80 90 71 92 63 即对第二关键字排序的结果

for(i=0; i<n; i++) wv[i]=x[y[i]];将x[]数组拷贝到wv[]中

⑤剩下的基数排序就与对长度为1的字符串进行排序一样了

完整的代码(参考理解)

#include <cstdio>
#include <iostream>
#include <cstring>
#define  LL long long
#define  ULL unsigned long long
using namespace std;
const int MAXN=100010;
//以下为倍增算法求后缀数组 
int wa[MAXN],wb[MAXN],wv[MAXN],Ws[MAXN];
int cmp(int *r,int a,int b,int l)
{return r[a]==r[b]&&r[a+l]==r[b+l];}
/**< 传入参数:str,sa,len+1,ASCII_MAX+1 */ 
void da(const char r[],int sa[],int n,int m)
{
      int i,j,p,*x=wa,*y=wb,*t; 
      for(i=0; i<m; i++) Ws[i]=0;
      for(i=0; i<n; i++) Ws[x[i]=r[i]]++;//以字符的ascii码为下标 
      for(i=1; i<m; i++) Ws[i]+=Ws[i-1];
      for(i=n-1; i>=0; i--) sa[--Ws[x[i]]]=i;
      /*cout<<"SA"<<endl;;
      for(int i=0;i<n+1;i++)cout<<sa[i]<<‘ ‘;*/
      for(j=1,p=1; p<n; j*=2,m=p)
      {
            for(p=0,i=n-j; i<n; i++) y[p++]=i; 
            for(i=0; i<n; i++) if(sa[i]>=j) y[p++]=sa[i]-j;
            for(i=0; i<n; i++) wv[i]=x[y[i]];
            for(i=0; i<m; i++) Ws[i]=0;
            for(i=0; i<n; i++) Ws[wv[i]]++;
            for(i=1; i<m; i++) Ws[i]+=Ws[i-1];
            for(i=n-1; i>=0; i--) sa[--Ws[wv[i]]]=y[i];
            for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1; i<n; i++)
                  x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
      }
      return;
}
int sa[MAXN],Rank[MAXN],height[MAXN];
//求height数组
/**< str,sa,len */
void calheight(const char *r,int *sa,int n)
{
      int i,j,k=0;
      for(i=1; i<=n; i++) Rank[sa[i]]=i;
      for(i=0; i<n; height[Rank[i++]]=k)
            for(k?k--:0,j=sa[Rank[i]-1]; r[i+k]==r[j+k]; k++);
      // Unified
      for(int i=n;i>=1;--i) ++sa[i],Rank[i]=Rank[i-1];
}

char str[MAXN];
int main()
{
      while(scanf("%s",str)!=EOF)
      {
            int len=strlen(str);
            da(str,sa,len+1,130);
            calheight(str,sa,len);
            puts("--------------All Suffix--------------");
            for(int i=1; i<=len; ++i)
            {
                  printf("%d:\t",i);
                  for(int j=i-1; j<len; ++j)
                        printf("%c",str[j]);
                  puts("");
            }
            puts("");
            puts("-------------After sort---------------");
            for(int i=1; i<=len; ++i)
            {
                  printf("sa[%2d ] = %2d\t",i,sa[i]);
                  for(int j=sa[i]-1; j<len; ++j)
                        printf("%c",str[j]);
                  puts("");
            }
            puts("");
            puts("---------------Height-----------------");
            for(int i=1; i<=len; ++i)
                  printf("height[%2d ]=%2d \n",i,height[i]);
            puts("");
            puts("----------------Rank------------------");
            for(int i=1; i<=len; ++i)
                  printf("Rank[%2d ] = %2d\n",i,Rank[i]);
            puts("------------------END-----------------");
      }
      return 0;
}

 

以上是关于后缀数组(SA)的主要内容,如果未能解决你的问题,请参考以下文章

后缀数组详解+模板

[算法]后缀数组

[补档计划] 后缀数组

SA 后缀数组

108 后缀数组(SA)

数据结构之后缀数组