KMP算法和LPS表构建的运行时间

Posted

技术标签:

【中文标题】KMP算法和LPS表构建的运行时间【英文标题】:Runtime of KMP algorithm and LPS table construction 【发布时间】:2019-04-03 23:23:26 【问题描述】:

我最近遇到了 KMP 算法,我花了很多时间试图理解它为什么起作用。虽然我现在确实了解基本功能,但我根本无法理解运行时计算。

我从 geeksForGeeks 网站获取了以下代码:https://www.geeksforgeeks.org/kmp-algorithm-for-pattern-searching/

该站点声称如果文本大小为 O(n) 且模式大小为 O(m),则 KMP 会在最大 O(n) 时间内计算匹配。它还指出可以在 O(m) 时间内计算 LPS 数组。

// C++ program for implementation of KMP pattern searching 
// algorithm 
#include <bits/stdc++.h> 

void computeLPSArray(char* pat, int M, int* lps); 

// Prints occurrences of txt[] in pat[] 
void KMPSearch(char* pat, char* txt) 
 
    int M = strlen(pat); 
    int N = strlen(txt); 

    // create lps[] that will hold the longest prefix suffix 
    // values for pattern 
    int lps[M]; 

    // Preprocess the pattern (calculate lps[] array) 
    computeLPSArray(pat, M, lps); 

    int i = 0; // index for txt[] 
    int j = 0; // index for pat[] 
    while (i < N)  
        if (pat[j] == txt[i])  
            j++; 
            i++; 
         

        if (j == M)  
            printf("Found pattern at index %d ", i - j); 
            j = lps[j - 1]; 
         

        // mismatch after j matches 
        else if (i < N && pat[j] != txt[i])  
            // Do not match lps[0..lps[j-1]] characters, 
            // they will match anyway 
            if (j != 0) 
                j = lps[j - 1]; 
            else
                i = i + 1; 
         
     


// Fills lps[] for given patttern pat[0..M-1] 
void computeLPSArray(char* pat, int M, int* lps) 
 
    // length of the previous longest prefix suffix 
    int len = 0; 

    lps[0] = 0; // lps[0] is always 0 

    // the loop calculates lps[i] for i = 1 to M-1 
    int i = 1; 
    while (i < M)  
        if (pat[i] == pat[len])  
            len++; 
            lps[i] = len; 
            i++; 
         
        else // (pat[i] != pat[len]) 
         
            // This is tricky. Consider the example. 
            // AAACAAAA and i = 7. The idea is similar 
            // to search step. 
            if (len != 0)  
                len = lps[len - 1]; 

                // Also, note that we do not increment 
                // i here 
             
            else // if (len == 0) 
             
                lps[i] = 0; 
                i++; 
             
         
     
 

// Driver program to test above function 
int main() 
 
    char txt[] = "ABABDABACDABABCABAB"; 
    char pat[] = "ABABCABAB"; 
    KMPSearch(pat, txt); 
    return 0; 

我真的很困惑为什么会这样。

对于 LPS 计算,请考虑:aaaaacaaac 在这种情况下,当我们尝试计算第一个 c 的 LPS 时,我们将继续返回,直到遇到 LPS[0],即 0 并停止。因此,本质上,我们将至少返回模式的长度直到该点。如果这种情况发生多次,时间复杂度会是O(m)吗?

我对 KMP 的运行时间为 O(n) 有类似的困惑。

我在发帖前已经阅读了堆栈溢出中的其他线程,以及有关该主题的各种其他网站。 我仍然很困惑。如果有人可以帮助我了解这些算法的最佳和最坏情况以及如何使用一些示例计算它们的运行时间,我将不胜感激。同样,请不要建议我用谷歌搜索,我已经完成了,花了整整一周的时间试图获得任何见解,但失败了。

【问题讨论】:

这个问题没有提出问题,而是一个广泛的意见问题,应该关闭。 如果您对算法一无所知,而只是阅读您发布的代码,则代码仅显示一个 while 循环到 M 和另一个循环到 N。那么混乱在哪里呢?循环不会递减或减少i 循环计数器,因此复杂度显然是 O(m) 和 O(n)。 我知道两个循环都不会减少 i 循环计数器。但这并不意味着运行时间是 O(n)。让我们考虑朴素的字符串匹配算法。它的运行时间为 O(mn),对于 txt 中的每个 i,我们匹配模式的 m 个字符(max)。所以总运行时间有 mn。在这种情况下,我们也永远不会减少“i”计数器。现在我明白了,在这种情况下,对于给定的 i,我们进行的比较较少,但我不了解这些比较的上限。这是我的问题 【参考方案1】:

为构建 LPS 数组建立运行时上限的一种方法是考虑一个病态的情况 - 我们如何才能最大化我们必须执行 len = lps[len - 1] 的次数?考虑以下字符串,忽略空格:x1 x2 x1x3 x1x2x1x4 x1x2x1x3x1x2x1x5 ...

需要将第二个术语与第一个术语进行比较,就好像它以 1 而不是 2 结尾一样,它会匹配第一个术语。同样,需要将第三项与前两项进行比较,就好像它以 1 或 2 而不是 3 结尾一样,它将匹配那些部分项。以此类推。

在示例字符串中,很明显只有每1/2^n个字符可以匹配n次,所以总运行时间为m+m/2+m/4+..=2m=O(m) ,模式字符串的长度。我怀疑不可能构造一个运行时间比示例字符串差的字符串,这可能可以正式证明。

【讨论】:

以上是关于KMP算法和LPS表构建的运行时间的主要内容,如果未能解决你的问题,请参考以下文章

KMP 前缀表

七分钟理解什么是 KMP 算法

Kmp算法浅谈

最长回文算法2

KMP算法

KMP算法代码实现记录