Horspool算法-字符串匹配

Posted Library of stultus

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Horspool算法-字符串匹配相关的知识,希望对你有一定的参考价值。

不得不说ACM哪怕是没有结果,对于算法能力的训练是毋庸置疑的……

  因为老师划了重点,所以讲一下horspool的字符串匹配算法的原理吧。

  先声明几个概念,被找的字符串称为匹配串,要找的字符串被称为模式串,当前和模式串相匹配的匹配串的子串被称为匹配子串(废话

  在朴素算法中,我们要找一个匹配串是否存在模式串,例如HuangZhi is a genius的匹配串串和ChengJinSen的模式串,那么我们一开始用的方法是用:

  HuangZhi is(11 character)

  去匹配:

  ChengJinSen(11 character)

  如果每个字母都相等,那么我们就认为这个模式找到了。

  但是这个算法的效率是多少呢,假设匹配串的长度为N,模式串的长度为m,那么易证时间效率为:O(n*m),在很多时候这个效率都是很慢的。

  而Horspool算法(在我看来)是有这样一个基本思想:如果我提前知道了这个步骤是可以跳过的,那我就可以不用去验证了。

  我们拿saber和archer作为模式串和匹配串好了:

  archer

  saber

  很明显,在初次对齐的时候,其并不相等,而且我们注意到了,此次匹配串对应的子串是:arche,而最后一个字母是e.

  那么很明显的,假如我们一个个移动下去,直到模式串的下一个e为止,都不可能达到匹配的结果。

  这里e就是下一个,所以我们把saber稍稍的改一下,改成sebar,这时候就会发现,假设你一个个挪,到e之前的所有都不可能和arche里的e匹配,所以这里我们完全可以直接把e挪到arche的e的位置,然后在进行匹配计算,这样就节省了不少的时间。也就是说,跳过e到模式串最后一个字母之间的距离。

  以上的情况,可以归纳为情况1,即匹配子串的最后一个在模式串中出现过,且不是模式串的最后一个字母(最后的特殊性会讲到)

  那么,假设最后一个字符在模式串里从来没有出现过呢?那这样,假设一个个移,每一个都必然得不到匹配结果,直到该字符不在匹配子串中,如此,则是直接跳过整个子串的长度。

  以上情况归为情况2,匹配子串的最后一个字母没有在模式串里出现过,且不是模式串的最后一个字母。

  好了,为什么上面要提到模式串的字母呢?因为这个查询方法存在一个问题,假设匹配子串的最后一个字母在模式串中出现过,且为模式串的最后一位呢?那这样就要分成两种情况来讨论,

  1,是模式串的最后一位字母在模式串中唯一,那这样就类似于情况2,直接跳过这个匹配子串最后字母的匹配,即跳过字符长度。这个我们姑且称为情况3。

  2,是该字母在模式串中不唯一,那这样就仿照情况二,找到离模式串结尾最近的,且同样是这个字母的字母的位置,并跳转以后匹配。这个我们称为情况4

  然后是这个算法的计算机实现,总结了下上述规律,我们发现这个模式串跳转的机制,可以不用每次查找模式串中是否有同样的值,而用预处理的方式来实现,根据情况一二的总结,我们得出,模式串中存在的字母,向右找到其最贴近模式串结尾的同样的字母,并把其离结尾的位置存下,方便应用,若不存在,则直接跳转模式串长度,为了方便,我们也把它存下来,不过跳转长度设为模式串长度。根据情况3,4的总结,我们得出,最后一个字母不应纳入上述的计算。

   附带试验用算法:

#include<iostream>
#include<algorithm>
#include<vector>
#include<map>
#include<string>
#define INF 0x3f3f3f3f
using namespace std;
int main() {
     string M, P;
     cin >> M >> P;
     map<char, int>NEXT;
     for (int i = 0; i < 26; i++)
         NEXT[‘a‘ + i] = P.size();
     for (int i = 0; i < 26; i++)
         NEXT[‘A‘ + i] = P.size();
     for (int i = 0; i < P.size() - 1; i++)
         NEXT[P[i]] = P.size() - i-1;
     int space = 0;
     for (int i = 0; i <= M.size()-P.size();)
     {
         space = i;
         cout << M << endl;
         for (int i = 0; i < space; i++)
             cout << " ";
         cout << P << endl << "_________________________________" << endl;
         if (M.substr(i, P.size()) == P)
             cout << "找到匹配串" << endl;
         i += NEXT[M[i + P.size() - 1]];
     }
    
    
}

以上是关于Horspool算法-字符串匹配的主要内容,如果未能解决你的问题,请参考以下文章

LeetCode面试刷题技巧- 字符串匹配习题集

Horspool算法

Horspool算法

正则引擎在数据包匹配中的工程分析

字符串的模式匹配:Horsepool算法

哪个是更好的字符串搜索算法? Boyer-Moore 还是 Boyer Moore Horspool? [关闭]