模板字符串匹配的三种做法(HashKMPSTL)

Posted fseject-2002

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了模板字符串匹配的三种做法(HashKMPSTL)相关的知识,希望对你有一定的参考价值。

题目描述

如题,给出两个字符串s1和s2,其中s2为s1的子串,求出s2在s1中所有出现的位置。

输入输出格式

输入格式:

第一行为一个字符串,即为s1

第二行为一个字符串,即为s2

输出格式:

1行,包含若干整数,表示s2在s1中出现的位置,中间用空格隔开。

输入输出样例

输入样例#1:                     输出样例#1:

ABABABC                               1 3
ABA
很明显,这道题可以用暴力求解字符串匹配。即枚举起点,然后判断是否为子串。时间复杂度为$O(len^2)$.复杂度明显超时。
Hash:
一种用正确率换取时间的算法,可以把每个字符串看作是一个b进制下的数,求出它在10进制下的值,然后在与几个质数取模,得到在(long long) | (int)范围内可储存的值,这种情况下我们认为同一hash值的字符串相同。
在一般情况下,不会有人专门卡Hash,所以也可以不取模,定义一个(unsigned long long) 让它自然溢出。
思路如下:预处理出每一个$b^n$和A串的前缀Hash,枚举A串的起点,求出从$i$到$i+len(B)$的hash值,与B的hash值比较,时间复杂度是$O(n)$。
代码如下:
 1 #include<bits/stdc++.h>
 2 const int b = 127;
 3 typedef unsigned long long pmod;
 4 char s1[1000001], s2[1000001];
 5 pmod sum[1000001];
 6 pmod p[1000001];
 7 int main(){
 8     p[0] = 1, sum[0] = 0; pmod s = 0;
 9     for(int i=1; i<1000000; i++)//预处理
10         p[i] = p[i-1]*b;
11     scanf("%s%s", s1+1, s2+1);
12     int n = strlen(s1+1), m = strlen(s2+1), cnt=0;
13     for(int i=1; i<=n; i++)//预处理出A串的前缀Hash值
14         sum[i] = sum[i-1]*b+(pmod)(s1[i]-A);
15     for(int i=1; i<=m; i++)
16         s = s*b+(pmod)(s2[i]-A);
17     for(int i=0; i<=n-m; i++)//枚举起点
18         if(s == sum[i+m]-sum[i]*p[m]) cnt++;
19     printf("%d
", cnt);
20     return 0;
21 }

 

KMP:
将A串称为模式串,B串成为主串。
枚举每个模式串终点$i$,判断主串能匹配的长度$j$。$j$同时为主串上匹配的位置
匹配成功&i++, j++&
在简单的一次匹配失败后,我们会想将模式串尽量的右移和主串进行匹配。右移的距离在KMP算法中是如此计算的:在已经匹配的模式串子串中,找出最长的相同的前缀和后缀,然后移动使它们重叠。
也就是将匹配长度$j$由当前位置变为上一个可以匹配的位置
如此可以在$O(n)$的时间复杂度内完成匹配
代码如下:
 1 #include<bits/stdc++.h>
 2 using namespace std;
 3 const int N = 1000001;int next[N];char a[N], b[N];
 4 int main() {
 5     scanf("%s%s", a+1, b+1);
 6     int n=strlen(a+1), m=strlen(b+1), j=0;
 7     next[1]=0;
 8     for(int i=1; i<m; i++) {
 9         while(j>0 && b[j+1] != b[i+1]) j=next[j];
10         if(b[i+1] == b[j+1]) j++;
11         next[i+1]=j;
12     }j=1;
13     for(int i=1; i<n; i++) {
14         while(j>0 && b[j+1] != a[i+1]) j=next[j];
15         if(a[i+1] == b[j+1]) j++;
16         if(j==m) {printf("%d
", i-j+2, i, j);j=next[j];}
17     }
18     for(int i=1;i<=m;i++) printf("%d ", next[i]);
19     return 0;
20 }

STL:

c++最强大的功能就是STL,它可以使代码很简洁,但同时会降低代码的效率(因为频繁的调用),但是,考试中使用STL也是一种好的办法,可以大大降低编程的时间。

本题可以使用STL中string的find()函数。

代码如下:

#include<iostream>
#include<cstdio>
#include<string>
using namespace std;
int main(){
    string s, c;
    int ans=0, p=-1;
    getline(cin, s);
    getline(cin, c);
    while((p=s.find(c, p+1))!=string::npos) ans++;
    printf("%d", ans);
    return 0;
}

非常简洁。

 

















以上是关于模板字符串匹配的三种做法(HashKMPSTL)的主要内容,如果未能解决你的问题,请参考以下文章

Python 技巧—— list 删除一个元素的三种做法

如何识别图像中的三种对象?

JAVA 正则表达式的三种模式: 贪婪, 勉强和占有的讨论

JavaScript-阶乘的三种做法(正向&逆向&递归)

vue中template的三种写法

斐波那契数列的三种时间复杂度