AhoCorasick自动机

Posted hanasaki

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了AhoCorasick自动机相关的知识,希望对你有一定的参考价值。

AhoCorasick(AC)自动机相当于KMP的加强版,可用于多模板匹配。AC自动机是由Trie加上失配边组成的。

f代表失配边
val用来标记终端结点
由于同一个结点可能对应多个字符串的结尾,所以last用来表示此结点沿着失配边走的前一个终端结点,last也叫做后缀链接

刘汝佳大神的模板代码:

struct AhoCorasickAutomata 
    int ch[MAXNODE][SIGMA_SIZE];
    int f[MAXNODE];
    int val[MAXNODE];
    int last[MAXNODE];
    int sz;

    void init() 
        sz = 1;
        memset(ch[0], 0, sizeof(ch[0]));
        memset(cnt, 0, sizeof(cnt));
    

    int idx(char c) 
        return c - a;
    

    void insert(char *s, int v) 
        int u = 0, n = strlen(s);
        for(int i = 0; i < n; i++) 
            int c = idx(s[i]);
            if(!ch[u][c]) 
                memset(ch[sz], 0, sizeof(ch[sz]));
                val[sz] = 0;
                ch[u][c] = sz++;
            
            u = ch[u][c];
        
        val[u] = v;
    

    void print(int j) 
        if(j) 
            printf("%d", val[j]);
            print(last[j]);
        
    

    int find(char* T) 
        int n = strlen(T);
        int j = 0;
        for(int i = 0; i < n; i++) 
            int c = idx(T[i]);
            while(j && !ch[j][c]) j = f[j];
            j = ch[j][c];
            if(val[j]) print(j);
            else if(last[j]) print(last[j]);
        
    

    void getFail() 
        queue<int> q;
        f[0] = 0;
        for(int c = 0; c < SIGMA_SIZE; c++) 
            int u = ch[0][c];
            if(u) f[u] = 0, q.push(u), last[u] = 0;
        
        while(!q.empty()) 
            int r = q.front(); q.pop();
            for(int c = 0; c < SIGMA_SIZE; c++) 
                int u = ch[r][c];
                if(!u) continue;
                q.push(u);
                int v = f[r];
                while(v && !ch[v][c]) v = f[v];
                f[u] = ch[v][c];
                last[u] = val[f[u]] ? f[u] : last[f[u]];
            
        
    
;

当然,为了降低时间复杂度,也为了让这个数据结构更像自动机,可以将队列操作中的"if(!u) continue"改为"if(!u) ch[r][c] = ch[f[r]][c]"。这样就不需要反复沿失配边走了,可以把"while(j && !ch[j][c]) j = f[j]"删掉。

以上是关于AhoCorasick自动机的主要内容,如果未能解决你的问题,请参考以下文章

DFA 算法实现关键词匹配

后缀自动机如何限制串长

AC自动机

算法学习:后缀自动机

AC自动机&后缀自动机

有限自动机、下推自动机和图灵机示例