串——求解next数组和nextval数组
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了串——求解next数组和nextval数组相关的知识,希望对你有一定的参考价值。
参考技术Anext数组的求解方法: 首先第一位的next值直接给0,第二位的next值直接给1,后面求解每一位的next值时,都要前一位进行比较。首先将前一位与其next值的对应位进行比较,若相等,则该位的next值就是前一位的next值加上1;若不等,继续重复这个过程,直到找到相等某一位,将其next值加1即可,如果找到第一位都没有找到,那么该位的next值即为1。
举例:
另解(不想看可跳过):
求next数组:
先求模式串S 每一个字符前面的那个字符串的最大公共前后缀长度,将这一系列长度存成一个数组,求出来的每个长度其实就是和模式串每一个对应位置上做比较的下标
例如:模式串是 ABACABC ,其最长公共前后缀长度数组为:我们将最长公共前后缀长度记作 LCPSF ,现在从模式串第一个字符A开始,A的前面字符串为null,所以A之前的子串的 LCPSF 是0;来到B,B的前面字符串是A,A是单独的字符不存在公共前后缀,所以长度也是0;来到A,A前面的子串是AB, LCPSF 为0;来到C,C前面的子串是ABA, LCPSF 为1;来到A,A前面的子串是ABAC, LCPSF 为0;来到B,B之前子串为ABACA, LCPSF 为1;来到C,C前面子串为ABACAB, LCPSF 为2;到此这个最长公共前后缀数组就出来了 [0,0,0,1,0,1,2] 将这个数组从第二个值开始每个值加1后,得到 [0,1,1,2,1,2,3] 就是将要和子串对应位置比较的下标,即为next数组。
掌握了上面求next数组的方法后,我们可以迅速求得模式串ABACABC的next数组为[0,1,1,2,1,2,3],现在继续求模式串ABACABC的next-val数组:
求解nextval数组是基于next数组的,模式串每一个位置的字符和其next数组值给出的下标的对应位置的数作比较,相等就取next-val中对应的next数组值作为当前位置字符的next-val值,不等就直接取当前位置字符的next数组的值作为next-val的值。
求解步骤:
next-val数组第一个数直接为0。
next-val第二数:模式串第二个字符为B,对应的下标数组第二个数是1,那就是将模式串的第1个字符和B相比较,A!=B,所以直接将下标数组第二个数1作为next-val数组第二个数的值
第三个数:模式串第三个字符为A,对应下标数组第三个数为1,取其作为下标,找到模式串第1个字符为A,A=A,那取next-val的第一个数做为next-val第三个数的值,也就是0
举例:
next数组的缺陷举例如下:
比如主串是"aabXXXXXXXXXXXXXX",模式串"aac"
通过计算 "aac" 的next数组为012,当模式串在字符c上失配时,会跳到第2个字符,然后再和主串当前失配的字符重新比较,即此处用模式串的第二个a和主串的b比较,即 "aabXXXXXXXXXXXXXX"vs"aac",显然a也不等于b。然后会跳到1接着比,直到匹配成功或者匹配失败主串后移一位。
而"aac"的nextval数组为002 当在c失配时会跳到2,若还失配就直接跳到0,比next数组少比较了1次。
在如果模式串很长的话,那可以省去很多比较,因此使用nextval数组比next数组高效。
在模式匹配的KMP算法中,求模式的next数组值(也称为KMP算法中失败函数)定义如下:
(1)当j=1时,为什么要取next[1]=0?
答:当模式串第一个字符与主串中某字符不匹配时,主串指针应移至下一字符,再和模式串第一个字符比较。(next[1]=0 表示模式串中已没有字符可与主串中当前字符 s[i] 比较)
(2)为什么要取 maxk,k最大是多少?
答:当主串中第 i 个字符与模式串中第 j 个字符不匹配时,若主串 i 不回溯,则假定模式串中第 k 个字符与主串中第 i 个字符比较,k 值应满足条件 1<k<j,并且 \'p1...pk-1\' == \'pj-k+1...pj-1\',即模式串向后移动的距离为 k,k值可能有多个,为了不使移动产生丢失可能的匹配,k要取最大值,maxk表示移动的最大的距离,k的最大值为 j-1。
(3)其它情况是什么?为什么取 next[j] = 1?
答:以上两种情况的不匹配,主串指针不回溯,在最坏的情况下,模式串从第 1 个字符开始与主串第 i 个字符比较,以便不丢失可能的匹配。
字符串匹配KMP算法中Next[]数组和Nextval[]数组求法
1 int get_nextval(SString T,int &nextval[ ]) 2 { 3 //求模式串T的next函数修正值并存入数组nextval。 4 i=1; nextval[1]=0; j=0; 5 while(i<T[0] 6 { 7 if(j==0||T[i]==T[j]) 8 { 9 ++i; 10 ++j; 11 if (T[i]!=T[j]) 12 nextval[i]=j; 13 else 14 nextval[i]=nextval[j]; 15 } 16 else 17 j=nextval[j]; 18 } 19 }//get_nextval
首先看看next数组值的求解方法。
例如:
模式串 | a | b | a | a | b | c | a | c |
next值 | 0 | 1 | 1 | 2 | 2 | 3 | 1 | 2 |
nextval值 |
看起来很令人费解,利用上面的例子具体运算一遍。
1.前两位必定为0和1。
2.计算第三位的时候,看第二位b的next值,为1,则把b和1对应的a进行比较,不同,则第三位a的next的值为1,因为一直比到最前一位,都没有发生比较相同的现象。
3.计算第四位的时候,看第三位a的next值,为1,则把a和1对应的a进行比较,相同,则第四位a的next的值为第三位a的next值加上1。为2。因为是在第三位实现了其next值对应的值与第三位的值相同。
4.计算第五位的时候,看第四位a的next值,为2,则把a和2对应的b进行比较,不同,则再将b对应的next值1对应的a与第四位的a进行比较,相同,则第五位的next值为第二位b的next值加上1,为2。因为是在第二位实现了其next值对应的值与第四位的值相同。
5.计算第六位的时候,看第五位b的next值,为2,则把b和2对应的b进行比较,相同,则第六位c的next值为第五位b的next值加上1,为3,因为是在第五位实现了其next值对应的值与第五位相同。
6.计算第七位的时候,看第六位c的next值,为3,则把c和3对应的a进行比较,不同,则再把第3位a的next值1对应的a与第六位c比较,仍然不同,则第七位的next值为1。
7.计算第八位的时候,看第七位a的next值,为1,则把a和1对应的a进行比较,相同,则第八位c的next值为第七位a的next值加上1,为2,因为是在第七位和实现了其next值对应的值与第七位相同。
在计算nextval之前要先弄明白,nextval是为了弥补next函数在某些情况下的缺陷而产生的,例如主串为“aaabaaaab”、模式串为“aaaab”那么,比较的时候就会发生一些浪费的情况:比较到主串以及模式串的第四位时,发现其值并不相等,据我们观察,我们可以直接从主串的第五位开始与模式串进行比较,而事实上,却进行了几次多余的比较。使用nextval可以去除那些不必要的比较次数。
求nextval数组值有两种方法,一种是不依赖next数组值直接用观察法求得,一种方法是根据next数组值进行推理,两种方法均可使用,视更喜欢哪种方法而定。
我们使用例子“aaaab”来考查第一种方法。
1.试想,在进行模式匹配的过程中,将模式串“aaaab”与主串进行匹配的时候,如果第一位就没有吻合,即第一位就不是a,那么不用比较了,赶快挪到主串的下一位继续与模式串的第一位进行比较吧,这时,模式串并没有发生偏移,那么,模式串第一位a的nextval值为0。
2.如果在匹配过程中,到第二位才发生不匹配现象,那么主串的第一位必定是a,而第二位必定不为a,既然知道第二位一定不为a,那么主串的第一、二两位就没有再进行比较的必要,直接跳到第三位来与模式串的第一位进行比较吧,同样,模式串也没有发生偏移,第二位的nextval值仍然为0。
3.第三位、第四位类似2的过程,均为0。
4.如果在匹配过程中,直到第五位才发生不匹配现象,那么主串的第一位到第四位必定为a,并且第五位必定不为b,可是第五位仍然有可能等于a。如果万一第五位为a,那么既然前面四位均为a,所以,只要第六位为b,第一个字符串就匹配成功了。所以,现在的情况下,就是看第五位究竟是不是a了。所以发生了下面的比较:
1 | 2 | 3 | 4 | 5 | 6 |
a | a | a | a | * | * |
a | a | a | a | b | |
a | a | a | a | b |
前面的三个a都不需要进行比较,只要确定主串中不等于b的那个位是否为a,即可以进行如下的比较:如果为a,则继续比较主串后面一位是否为b;如果不为a,则此次比较结束,继续将模式串的第一位去与主串的下一位进行比较。由此看来,在模式串的第五位上,进行的比较偏移了4位(不进行偏移,直接比较下一位为0),故第五位b的nextval值为4。
我们可以利用第一个例子“abaabcac”对这种方法进行验证。
a的nextval值为0,因为如果主串的第一位不是a,那么没有再比较下去的必要,直接比较主串的第二位是否为a。如果比较到主串的第二位才发生错误,则主串第一位肯定为a,第二位肯定不为b,此时不能直接跳到第三位进行比较,因为第二位还可能是a,所以对主串的第二位再进行一次比较,偏移了1位,故模式串第二位的nextval值为1。以此类推,nextval值分别为:01021302。其中第六位的nextval之所以为3,是因为,如果主串比较到第六位才发生不匹配现象,那么主串的前五位必定为“abaab”且第六位必定不是“c”,但第六位如果为“a”的话,那么我们就可以从模式串的第四位继续比较下去。所以,这次比较为:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
a | b | a | a | b | * | * | * | * | * | * | * |
a | b | a | a | b | c | a | c |
而不是:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
a | b | a | a | b | * | * | * | * | * | * | * |
a | b | a | a | b | c | a |
因为前两位a和b已经确定了,所以不需要再进行比较了。所以模式串第六位的nextval值为这次比较的偏移量3。
再来看求nextval数组值的第二种方法。
模式串 | a | b | a | a | b | c | a | c |
next值 | 0 | 1 | 1 | 2 | 2 | 3 | 1 | 2 |
nextval值 | 0 | 1 | 0 | 2 | 1 | 3 | 0 | 2 |
1.第一位的nextval值必定为0,第二位如果与第一位相同则为0,如果不同则为1。
2.第三位的next值为1,那么将第三位和第一位进行比较,均为a,相同,则,第三位的nextval值为0。
3.第四位的next值为2,那么将第四位和第二位进行比较,不同,则第四位的nextval值为其next值,为2。
4.第五位的next值为2,那么将第五位和第二位进行比较,相同,第二位的next值为1,则继续将第二位与第一位进行比较,不同,则第五位的nextval值为第二位的next值,为1。
5.第六位的next值为3,那么将第六位和第三位进行比较,不同,则第六位的nextval值为其next值,为3。
6.第七位的next值为1,那么将第七位和第一位进行比较,相同,则第七位的nextval值为0。
7.第八位的next值为2,那么将第八位和第二位进行比较,不同,则第八位的nextval值为其next值,为2。
在“aaaab”内进行验证。
模式串 | a | a | a | a | b |
next值 | 0 | 1 | 2 | 3 | 4 |
nextval值 | 0 | 0 | 0 | 0 | 4 |
以上是关于串——求解next数组和nextval数组的主要内容,如果未能解决你的问题,请参考以下文章
KMP算法模式匹配——手工求解next和nextval数组值
字符串匹配KMP算法中Next[]数组和Nextval[]数组求法