KMP算法next数组的计算

Posted 2023-03-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了KMP算法next数组的计算相关的知识，希望对你有一定的参考价值。

已知0-1字符串：01101110011，
试求next[7]的值。

字符串如果是以0为下标的话next[7]是0，只有最后一位与第一位相等参考技术A next[i]表示的是：
在第i个字符前面的i-1个字符里面，
从开头开始的1个字符与最后1个字符是否相等，若不是，则next[i]=0,否则继续看下面；
从开头开始的2个字符与最后2个字符是否相等，若不是，则next[i]=1,否则继续看下面；
从开头开始的3个字符与最后3个字符是否相等，若不是，则next[i]=2,否则继续看下面；
……
就是这样的判断取值。
它的意思就是如果到了某个字符不匹配的情况时候，你就可以直接把模式串拖到从开头开始的那next[i]个字符等于当前字符的前next[i]个字符的地方，这样就少了很多重复的无效的比较和移动。本回答被提问者和网友采纳

KMP算法

KMP算法

KMP算法

基本思想

算法由两部分组成

计算ptr每一位及之前的字符串中，前缀和后缀公共部分的最大长度的next数组
匹配ptr和str，当ptr失配时，利用next数组，实现ptr的最大后移，从而避免不必要的匹配，减少匹配次数

计算next数组

前缀和后缀公共部分的最大长度

一个字符串ababa，他的前缀是可以是a,ab,aba,abab(不包含最后一位)，后缀是a,ba,aba,baba(不包含第一位)
前缀后缀公共部分就是a和aba，公共部分最大就是aba，公共部分的最大长度就是3

next数组

next数组是ptr每一位及之前的字符串中，前缀和后缀公共部分的最大长度的集合
比如ptr字符串的长度是11(abxabwabxad)，那么next数组就有11个元素

next[0]表示ptr前一位a中，前缀和后缀公共部分的最大长度，由于a中没有前缀和后缀，所以next[0]=0
next[1]表示ptr前两位ab中，前缀和后缀公共部分的最大长度，ab的前缀是a，后缀是b，没有公共部分，所以next[1]=0
同理
next[2]=0(abx中无公共前后缀)
next[3]=1(abxa公共前后缀最长为a，长度为1)
next[4]=2(abxab公共前后缀最长为ab，长度为2)
next[5]=0(abxabw中无公共前后缀)
next[6]=1(abxabwa公共前后缀最长为a，长度为1)
next[7]=2(abxabwab公共前后缀最长为ab，长度为2)
next[8]=3(abxabwabx公共前后缀最长为abx，长度为3)
next[9]=4(abxabwabxa公共前后缀最长为abxa，长度为4)
next[10]=0(abxabwabxad中无公共前后缀)

下面用图文来解释，next函数是如何计算next数组的值的

技术图片

上图第一行，左边i值为ptr下标的值，中间是ptr字符串的每一位，右边是对应的next[i]值，从 i = 0 开始，分析每一行的计算过程

i = 0
由于字符串的前一位只有一个字符，是没有前后缀的，所以next[0] = 0，对应代码

k := 0
next[0] = k

i = 1
从上一次循环，可知 k = 0，既不满足代码中 k > 0 && findStr[k] != findStr[i]的判断，也不满足 findStr[k] == findStr[i]的判断，所以最后next[i] = k，也就是next[1] = 0
i = 2
同上，k = 0，next[2] = 0
i = 3
k = 0，满足findStr[k] == findStr[i]的判断，执行k++，这时 k = 1，最后next[i] = k，也就是next[3] = 1
i= 4
k = 1, 满足findStr[k] == findStr[i]的判断，执行k++，这时 k = 2，最后next[i] = k，也就是next[4] = 2
i = 5
k = 2，满足 k > 0 && findStr[k] != findStr[i]，执行k = next[k-1]，k = next[2-1] = next[1] = 0
很多人（包括我）都很不理解k = next[k-1]这行代码的意思，这里先不做解释，后边 i = 10 的时候说
i = 6...i = 9
i = 6 到 i = 9 的逻辑和上边相似，就不重复说了，可以参照着图看
i = 10，k = 4，满足 k > 0 && findStr[k] != findStr[i]，执行k = next[k-1]，在这里仔细说下k = next[k-1]的意思

当 i = 9 执行完后，字符串指针为下图的样子，此时前后缀公共部分的最大字符串为abxa

再看abxa字符串，abxa字符串的前后缀公共部分的最大字符串为a，所以 i = 9 时，前后缀公共部分可以分解为下图的形式

所以当 i = 10 时，如果k > 0 && findStr[k] != findStr[i]，也就是 k指向的b不等于i指向的d，如图

那么k指针就会执行`k = next[k-1]`回到前缀的公共前缀继续比较，也就是

这样，就保证最效率的匹配

匹配字符串

第一部分利用next函数得到了next数组，下一步执行kmp函数，对ptr和str进行匹配，并当ptr和str失配时，利用next数组，进行最大位移，由于kmp函数和next函数差不多，这里就不详细讲了，直接上图

技术图片
代码如下：

#include<bits/stdc++.h>
using namespace std;
int main()
{
    string s1,s2;//s1主串,s2匹配串
    getline(cin,s1);
    getline(cin,s2);
    int k=0;vector<int>next,pos;
    next.push_back(0);
    for(int i=1;i<s2.size();i++)
    {
        while(k>0&&s2[i]!=s2[k])
            k=next[k-1];
        if(s2[k]==s2[i])
            k++;
        next.push_back(k);  
    }
    k=0;int i=0;
    while(i<=s1.size()-s2.size())
    {
        while(k!=s2.size()&&s1[i+k]==s2[k])
        {
            k++;
        }
        if(k==s2.size())
            pos.push_back(i);
        else{
            k=k-next[k-1];
        }
        k=0;
        i++;
    }
    for(auto it=pos.begin();it!=pos.end();it++)
    {
        cout<<(*it)<<" ";
    }
    // for(int i=0;i<s2.size();i++)
    //  cout<<next[i]<<" ";
    return 0;
}

以上是关于KMP算法next数组的计算的主要内容，如果未能解决你的问题，请参考以下文章