再探 KMP 算法

Posted patt

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了再探 KMP 算法相关的知识,希望对你有一定的参考价值。

$DeclareMathOperator{fail}{fail}$

KMP 算法堪称经典中的经典了,然而这么多年以来,我没能完全理解这个算法。我对 KMP 算法掌握的程度,就是知道其原理,但是写不出来。

今天打 CF,遇到一个 KMP 的题目,解法很好想,代码量也不大,我却未能在最后的 17 分钟内 AC。痛定思痛,痛何如哉。今天我要用最详细的语言,把我对 KMP 算法的理解写下来,借此将这个算法印在我心里。

相比于朴素的匹配算法,KMP 算法的优越之处在于不会进行重复比较(或者说不会进行重复匹配)。
无论哪一篇介绍 KMP 算法的文章都会提到这一点,那么不会进行重复比较所指的究竟是什么呢?

概括的说,这指的是在整个匹配过程中,文本串 $T$ 的每个字符只处理一次。
注意,这里所谓的「处理」一次不一定是只比较一次,处理 $T[i]$ 的过程中,$T[i]$ 可能与模式串 $P$ 的多个位置上的字符进行比较。

下面来解释 KMP 算法是如何做到对文本串 $T$ 的每个字符只处理一次的。

KMP 算法的核心是 fail 数组。先来解释此数组的名字,为何将其命名为 fail。

想象按朴素的办法在文本串 $T$ 中匹配模式串 $P$ 的过程:
从头开始比较,假设在第 $i$ 个字符处失配了,也就是说 $i$ 之前都能匹配上,但 $T[i] e P[i]$。失配英文可作 mismatch,也可称为 fail。总之,fail 就是失配的意思。具体地说,fail[i] 指示着「若发现文本串 $T$ 的第 $j$ 个位置和模式串 $P$ 的第 $i$ 个位置失配了,即 $T[j] e P[i]$,那么下一步 $T[j]$ 应该与 $P$ 的哪个位置上的字符相比较」。换言之,若 $T[j]$ 与 $P[i]$ 失配了,下一步就比较 $T[j]$ 与 $P[fail[i]]$。若 $T[j] = P[fail[i]]$ 则 $T[j]$ 处理完毕,接着处理 $T[j+1]$,即拿 $T[j+1]$ 与 $P[fail[i]+1]$ 比较。若 $T[j] e P[fail[i]]$,即 $T[j]$ 再次失配,则再将 $T[j]$ 与 $P[fail[fail[i]]]$ 比较。如此迭代,直到 $T[j]$ 匹配成功,或者到达边界条件,即 $T[j]$ 与 $P[0]$ 失配,这意味着从 $T[j]$ 往前数找不到模式串 $P$ 的前缀,$T[j]$ 亦处理完毕,接着处理 $T[j+1]$,将其与 $P[0]$ 比较。

上一段叙述了在求出 fail 数组之后如何用它在文本串中搜索(或称匹配)模式串。接着来讲如何求 fail 数组。
首先考虑边界条件 fail[0]。
如果文本串 $T$ 的某个位置 $j$ 跟 $P[0]$ 失配了,那么 $T[j]$ 就处理完了,接着应该比较 $T[j+1]$ 与 $P[0]$。
据此,我们可以令 $fail[0] = -1$,即假想在模式串 $P$ 的首个字符 $P[0]$ 之前有一通配符 *,* 可以和任意字符匹配。

假设已经求出了 $fail[0], fail[1], dots, fail[i-1]$。
回顾 $fail[i]$ 的定义,在匹配过程中遇到文本串的第 $j$ 个位置与模式串的第 $i$ 个位置失配,那么下一步应该将 $T[j]$ 与模式串的第 $fail[i]$ 个字符比较。

不妨设想 $T[j-1]$ 与 $P[i-1]$ 失配了,我们知道此时应比较 $T[j-1]$ 与 $P[fail[i-1]]$,按照上面所述的方法,不断迭代,直到找到 $T[j-1]$ 在 $P$ 中的匹配位置,假设这个位置是 $x$,不难看出 $fail[i]$ 就等于 $x + 1$,于是我们得到了求 $fail[i]$ 的方法。

注意到,当文本串 $T$ 的第 $j$ 个位置与模式串 $P$ 的第 $i$ 个位置失配时,我们有 $P[0..i-1]$ 等于 $T[j-i..j-1]$。我们可以把求 fail 数组的过程看作是「在 $P$ 中搜索 $P$」,即文本串 $T$ 与模式串 $P$ 相等。求 $fail[i]$,我们假想「文本串的 $P[i-1]$」 与「模式串的 $P[i-1]$」“失配”,此时应将文本串的 $P[i-1]$ 与模式串的 $P[fail[i-1]]$ 相比较,不断迭代,直到找到「文本串的 $P[i-1]$」在模式串中的匹配位置,设此位置为 $x$,那么 $fail[i]$ 就等于 $x + 1$ 。

分析至此,我们看到,求 fail 数组和在文本串 $T$ 中搜索模式串 $P$ 可以归结为同一个问题。
我们可以把这两个过程的共同点抽出来,写成一个函数 int get_next(const char *P, const int *fail, const char ch, int i) 。这个函数的作用是求出「当字符 ch 与模式串 $P$ 的第 $i$ 个位置失配时, 应该将 ch 的后继字符与模式串 $P$ 的哪个位置作比较」。这个函数的名词,写得具体点,应该是 get_next_when_fail_at

int get_next(const char *P, const int *fail, const char ch, int i) {
    i = fail[i];
    while (i != -1 && ch != P[i]) {
        i = fail[i];
    }
    return i + 1;
}

有了这个函数,求 fail 数组就很方便了。

void get_fail(const char *P, int *fail, const int len_P) {
    fail[0] = -1;
    for (int i = 1; i <= len_P; i++) {
        fail[i] = get_next(P, fail, P[i-1], i - 1);
    }
}

其中参数 len_P 表示模式串 $P$ 的长度。
关于 fail 数组需要特别指出的是
一,根据 fail 数组的定义,fail 数组的下标范围是[0, len_P],不止 [0, len_P-1]。换言之, $fail[i]$ 对 $i = 0, 1, 2, dots, mathrm{len\_P} - 1, mathrm{len\_P}$ 都有定义。
二,根据 fail 数组的定义,必有 $fail[1] = 0$,也可以把 $fail[1] = 0$ 和 $fail[0] = -1$ 一并作为边界条件,并将函数 get_fail 中的 for 循环改成从 $i = 2$ 开始。为了简洁,我没有这样做。

借助 fail 数组,在文本串 $T$ 中匹配模式串 $P$ 的过程也很容易写

int match(const char *P, const int len_P, const char * T, const int len_T, const int *fail) {
    int cnt = 0;
    for (int i = 0, j = 0; i < len_T; ++i) {
        if (T[i] == P[j]) {
            ++j;
            if (j == len_P) {
                ++cnt;
                j = fail[j];
            }
        }
        else {
            j = get_next(P, fail, T[i], j);
        }
    }
    return cnt; // P 在 T 中出现的次数
}

值得指出的是,上述代码并不要求模式串 P null-terminated。如果 P 是 null-terminated 的,即 P[len_P] == ‘‘,那么上述代码的第 8 行 j = fail[j]; 可去掉。

补充

许多介绍 KMP 算法的文章是从 prefix function(前缀函数)讲起的。但我认为 fail 数组比 prefix function 更符合直觉。另外 fail 数组包含着自动机的思想,从 fail 数组很容易扩展到 AC 自动机,fail 数组有助于理解自动机理论,从而使人容易理解其他基于自动机的算法(例如后缀自动机)。

以上是关于再探 KMP 算法的主要内容,如果未能解决你的问题,请参考以下文章

kmp算法的个人理解

八十五再探希尔排序,桶排序,计数排序和基数排序

再探决策树算法之利用sklearn进行决策树实战

数据结构—串KMP模式匹配算法

Python ---- KMP(博文推荐+代码)

KMP算法及Python代码