AhoCorasick自动机
Posted hanasaki
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了AhoCorasick自动机相关的知识,希望对你有一定的参考价值。
AhoCorasick(AC)自动机相当于KMP的加强版,可用于多模板匹配。AC自动机是由Trie加上失配边组成的。
f代表失配边
val用来标记终端结点
由于同一个结点可能对应多个字符串的结尾,所以last用来表示此结点沿着失配边走的前一个终端结点,last也叫做后缀链接
刘汝佳大神的模板代码:
struct AhoCorasickAutomata int ch[MAXNODE][SIGMA_SIZE]; int f[MAXNODE]; int val[MAXNODE]; int last[MAXNODE]; int sz; void init() sz = 1; memset(ch[0], 0, sizeof(ch[0])); memset(cnt, 0, sizeof(cnt)); int idx(char c) return c - ‘a‘; void insert(char *s, int v) int u = 0, n = strlen(s); for(int i = 0; i < n; i++) int c = idx(s[i]); if(!ch[u][c]) memset(ch[sz], 0, sizeof(ch[sz])); val[sz] = 0; ch[u][c] = sz++; u = ch[u][c]; val[u] = v; void print(int j) if(j) printf("%d", val[j]); print(last[j]); int find(char* T) int n = strlen(T); int j = 0; for(int i = 0; i < n; i++) int c = idx(T[i]); while(j && !ch[j][c]) j = f[j]; j = ch[j][c]; if(val[j]) print(j); else if(last[j]) print(last[j]); void getFail() queue<int> q; f[0] = 0; for(int c = 0; c < SIGMA_SIZE; c++) int u = ch[0][c]; if(u) f[u] = 0, q.push(u), last[u] = 0; while(!q.empty()) int r = q.front(); q.pop(); for(int c = 0; c < SIGMA_SIZE; c++) int u = ch[r][c]; if(!u) continue; q.push(u); int v = f[r]; while(v && !ch[v][c]) v = f[v]; f[u] = ch[v][c]; last[u] = val[f[u]] ? f[u] : last[f[u]]; ;
当然,为了降低时间复杂度,也为了让这个数据结构更像自动机,可以将队列操作中的"if(!u) continue"改为"if(!u) ch[r][c] = ch[f[r]][c]"。这样就不需要反复沿失配边走了,可以把"while(j && !ch[j][c]) j = f[j]"删掉。
以上是关于AhoCorasick自动机的主要内容,如果未能解决你的问题,请参考以下文章