SAM

Posted Dirge

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SAM相关的知识,希望对你有一定的参考价值。

后缀自动机能识别字符串S的所有子串,是一个DAG。

http://blog.csdn.net/huanghongxun/article/details/51112764

http://blog.sina.com.cn/s/blog_70811e1a01014dkz.html

结点:

后缀自动机的节点表示一类不同的子串,它们在原串中出现的位置的Ri全部相同。(Right集合相同)

节点的属性就是1. Right集   2.长度区间[min(s), max(s)] (表示该节点表示的子串的长度范围)。

边:

边分两类,转移边与parent边。

转移边就是读入下一个字符后跳转的结点。故转移过去的节点对应的字符串集合至少包含原节点的字符串集添加字符。

parent边就是fail边,每次经fail边跳转后,max(fa(s))=min(s)?1,一个节点及其父节点的代表的串有相同的后缀

 

沿trans图前行,节点对应的字符串集合变大;

沿parent树回溯,节点对应字符串长度区间[minlen, maxlen] -> [?, minlen-1],right集合变大

 

节点对应的不同子串数 = maxlen-minlen+1 (所有不同子串数 = 各节点求和 = 从root出发的可行路径条数)

节点对应的字符串在原串中出现的次数 = 节点对应的right集合大小 = trans图中节点走到终点态的方案数 = parent树中子树在主链上的节点数

 

循环同构字符串处理技巧: 构造s0...sn-1s0...sn-2

 

如何求s, t的最长公共子串?

构造出s的SAM,用t在SAM上跑,维护当前匹配的最长长度len,

读入一个字符,

若沿trans图有对应边,则len = len+1;

否则沿parent树回溯,则len = maxlen

 

 

 

然后要理解后缀自动机的节点数不超过2n?1(n3), 转移数不超过3n?3条。

(转移数想的时间比较久。首先因为只有n个后缀,故出度为0的点不超过n个。那么假设只有2n-2条边,构成一棵生成树,那么每再加入一条边a -> b,我们都能有一条root -> a - > b -> end的路径,表示某一后缀。

root -> a, b -> end都是生成树上的边。那么加入的边不会超过n个就能构造出所有后缀。经过从具体请戳第一个链接)

 =======================================================================================

应用:http://blog.csdn.net/huanghongxun/article/details/51112764

以上是关于SAM的主要内容,如果未能解决你的问题,请参考以下文章

需要啥安全访问模块 (SAM)?

sam格式的简单了解

AT91SAM7S64B解密爱特梅尔系列芯片解密

SAM/BAM文件处理

SAM

sam文件转换为bam文件——SAMtools