AC自动机模板
Posted hesorchen
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了AC自动机模板相关的知识,希望对你有一定的参考价值。
题目
简介
KMP算法用来解决单模式串在单文本串中的匹配问题,trie树可以用来解决多模式串在单文本串的匹配问题,但是每次失配都要重新匹配,时间复杂度很高。AC自动机在trie树上建立fail指针,像KMP一样,对失配时的情况进行优化,使得时间复杂度降到 O ( n ) O(n) O(n)。
原理
一、构建trie树,这是AC自动机的前提。
二、在trie树上建立fail指针,AC自动机的关键所在。
如果一个模式串ABCDEF
在文本串中出现过,那么我们可以确定,该模式串的任意一个后缀也都在文本串中出现过。 fail指针的作用就是:让我们可以从该模式串ABCDEF
直接跳转到它的最长后缀串的位置。显然,该模式串的后缀子串(在trie树上)的深度小于该模式串,因此用BFS(层级遍历)可以很好的建立fail指针。
三、扫描主串进行匹配。
具体实现看代码。
代码
#include <bits/stdc++.h>
using namespace std;
const int N = 1e6 + 5;
char s[N];
int tr[N][26];
int ct;
int num[N];
int fail[N];
void insert(char s[]) //构建trie树
{
int p = 0;
for (int i = 1; s[i]; i++)
{
if (!tr[p][s[i] - 'a'])
tr[p][s[i] - 'a'] = ++ct;
p = tr[p][s[i] - 'a'];
}
num[p]++;
}
void build() //构建fail指针
{
queue<int> q;
for (int i = 0; i < 26; i++) //将第一层的点压入队列
if (tr[0][i])
q.push(tr[0][i]);
while (q.size())
{
int p = q.front();
q.pop();
for (int i = 0; i < 26; i++)
{
if (tr[p][i])
fail[tr[p][i]] = tr[fail[p]][i], q.push(tr[p][i]);
//1.如果存在子节点i,该子节点的fail指针就指向当前结点的fail指针的儿子节点
else
tr[p][i] = tr[fail[p]][i];
//2.如果不存在子节点i,该子节点直接指向当前结点的fail指针的儿子节点
}
}
}
int get(char s[]) //扫描主串进行匹配
{
int p = 0, res = 0;
for (int i = 1; s[i]; ++i) //找出以i位置结尾的所有模式串
{
p = tr[p][s[i] - 'a'];
//注释2保证了这个语句的合法,不会跑到未开辟的空间。
for (int j = p; num[j] != -1 && j; j = fail[j])
/*
num[j]表示以j结尾的单词数量。
如果abcde包含在文本串中,
那么bcde、cde显然也包含在文本串中,
因此用语句`j=fail[j]`不断迭代查找。
*/
{
res += num[j];
num[j] = -1; //打上标记,避免重复计算贡献。
}
}
return res;
}
int main()
{
int n;
scanf("%d", &n);
for (int i = 1; i <= n; i++)
{
scanf("%s", s + 1);
insert(s);
}
build();
scanf("%s", s + 1);
cout << get(s) << endl;
return 0;
}
参考资料
以上是关于AC自动机模板的主要内容,如果未能解决你的问题,请参考以下文章
HDU3247 Resource Archiver(AC自动机+BFS+DP)
HDU-2222-Keywords Search(AC自动机模板)