【python】求两个字符串的公共字串?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了【python】求两个字符串的公共字串?相关的知识,希望对你有一定的参考价值。

参考技术A 题目:找出两个字符串的最长公共字串,例如字符串“abccade”与字符串“dgcadde”的最长公共子串为“cad”。

分析:动态规划法。通过把中间的比较结果记录下来,从而可以避免字符的重复比较。:

首先定义二元函数(i,j):表示分别以s1[i],s2[j]结尾的公共子串的长度,显然,f(0, j) = 0 (j >= 0),f(i, 0) = 0(i >= 0),那么对于f(i +1, j + 1)而言,则有如下两种取值:
(1) f(i + 1, j +1) = 0,当str1[i + 1] != str2[j + 1]时

(2)f(i + 1, j +1) = f(i, j) + 1,当str1[i + 1] == str2[j + 1]时

根据这个公式可以计算出f(i, j)(0<= i<=len(s1), 0 <= j <= len(s2),所有的值,从而可以找出最长的子串。

def getMaxSubStr(str1, str2):

    len1 = len(str1)

    len2 = len(str2)

    sb = ''

    maxs = 0  # 用来记录最长公共子串的长度

    maxI = 0  # 用来记录最长公共字串最后一个字符的位置

    # 申请新的空间来记录公共字串长度信息

    M = [([None] * (len1 + 1)) for i in range(len2 + 1)]

    i = 0

    while i < len1 + 1:

        M[i][0] = 0

        i += 1

    j = 0

    while j < len2 + 1:

        M[0][j] = 0

        j += 1

    # 通过利用递归公式填写新建得二维数组(公共字串得长度信息)

    i = 1

    while i < len1 + 1:

        j = 1

        while j < len2 + 1:

            if list(str1)[i - 1] == list(str2)[j - 1]:

                M[i][j] = M[i - 1][j - 1] + 1

                if M[i][j] > maxs:

                    maxs = M[i][j]

                    maxI = i

            else:

                M[i][j] = 0

            j += 1

        i += 1

    i = maxI - maxs

    while i < maxI:

        sb = sb + list(str1)[i]

        i += 1

    return sb

if __name__ == "__main__":

    str1 = 'abccade'

    str2 = 'dgcadde'

    print(getMaxSubStr(str1, str2))

程序运行结果:

cad

bzoj 1014 火星人prefix - 链表 - 分块

Description

  火星人最近研究了一种操作:求一个字串两个后缀的公共前缀。比方说,有这样一个字符串:madamimadam,
我们将这个字符串的各个字符予以标号:序号: 1 2 3 4 5 6 7 8 9 10 11 字符 m a d a m i m a d a m 现在,
火星人定义了一个函数LCQ(x, y),表示:该字符串中第x个字符开始的字串,与该字符串中第y个字符开始的字串
,两个字串的公共前缀的长度。比方说,LCQ(1, 7) = 5, LCQ(2, 10) = 1, LCQ(4, 7) = 0 在研究LCQ函数的过程
中,火星人发现了这样的一个关联:如果把该字符串的所有后缀排好序,就可以很快地求出LCQ函数的值;同样,
如果求出了LCQ函数的值,也可以很快地将该字符串的后缀排好序。 尽管火星人聪明地找到了求取LCQ函数的快速
算法,但不甘心认输的地球人又给火星人出了个难题:在求取LCQ函数的同时,还可以改变字符串本身。具体地说
,可以更改字符串中某一个字符的值,也可以在字符串中的某一个位置插入一个字符。地球人想考验一下,在如此
复杂的问题中,火星人是否还能够做到很快地求取LCQ函数的值。

Input

  第一行给出初始的字符串。第二行是一个非负整数M,表示操作的个数。接下来的M行,每行描述一个操作。操
作有3种,如下所示
1、询问。语法:Qxy,x,y均为正整数。功能:计算LCQ(x,y)限制:1<=x,y<=当前字符串长度。
2、修改。语法:Rxd,x是正整数,d是字符。功能:将字符串中第x个数修改为字符d。限制:x不超过当前字
符串长度。
3、插入:语法:Ixd,x是非负整数,d是字符。功能:在字符串第x个字符之后插入字符d,如果x=0,则在字
符串开头插入。限制:x不超过当前字符串长度

Output

  对于输入文件中每一个询问操作,你都应该输出对应的答案。一个答案一行。

Sample Input

madamimadam
7
Q 1 7
Q 4 8
Q 10 11
R 3 a
Q 1 7
I 10 a
Q 2 11

Sample Output

5
1
0
2
1

HINT

 

1、所有字符串自始至终都只有小写字母构成。

2、M<=150,000

3、字符串长度L自始至终都满足L<=100,000

4、询问操作的个数不超过10,000个。

对于第1,2个数据,字符串长度自始至终都不超过1,000

对于第3,4,5个数据,没有插入操作。


  题目大意 支持插入、修改字符,并且询问两个位置开始的最长公共前缀。

Solution 1 平衡树

  用平衡树维护区间的Hash值,对于询问操作,二分答案,然后再区间查询check。

  (比较懒,改天再写这个做法)

Solution 2 块状链表

  对于普通的数组,插入最坏$O(n)$,对于普通的链表,插入最坏$O(n)$。

  导致链表速度慢的原因是找到插入位置,导致数组插入慢的原因是挪动元素。

  考虑一个数据就够能够解决这两个问题。

  我们对链表进行分块就能很好地解决这个问题。

  不过要注意一点:当块大小足够大时,需要分裂,否则会容易被卡。

  对于这个问题,我的做法是如果插入的块满了,并且下一个块也满了才新开一块放溢出的元素。

  现在考虑查询操作。

  每一块维护前缀Hash值和后缀Hash值,然后每次考虑向前$\\sqrt{L}$个元素,比较这一段的Hash值,如果它们相等就往前跳,如果不相等就一个字符一个字符地往前跳,直到某个字符不相等。

  注意一个问题,就是查询的两个起始位置相等,特判一下就好。

  然后注意插入的边界问题。

  总时间复杂度$O(m\\sqrt{L})$

  (我本来天真地以为这个会比平衡树好写,然后我发现我想多了。。)

Code

  1 /**
  2  * bzoj
  3  * Problem#1014
  4  * Accepted
  5  * Time: 3972ms
  6  * Memory: 3824k 
  7  */ 
  8 #include <bits/stdc++.h>
  9 using namespace std;
 10 typedef bool boolean;
 11 
 12 const int cs = 350; 
 13 const int base = 200379;
 14 int powb[100005];
 15         
 16 typedef class Chunk {
 17     public:
 18         Chunk *suf;
 19         int s;
 20         char str[cs + 5];
 21         int psh[cs + 5];
 22         int ssh[cs + 5];
 23         
 24         Chunk():suf(NULL), s(0) {    }
 25         Chunk(Chunk* org, int s):suf(org), s(s) {        }
 26         
 27         static Chunk* alloc();
 28         
 29         void maintain() {
 30             psh[0] = ssh[s + 1] = 0;
 31             for(int i = 1; i <= s; i++)
 32                 psh[i] = psh[i - 1] + str[i] * powb[i - 1];
 33             for(int i = s; i; i--)
 34                 ssh[i] = ssh[i + 1] * base + str[i];
 35         }
 36         
 37         void insert(int p, char x) {
 38             for(int i = s + 1; i > p; i--)
 39                 str[i] = str[i - 1];
 40             str[p] = x;
 41             if(full()) {
 42                 Chunk* nc = suf;
 43                 if(suf->full()) {
 44                     nc = alloc();
 45                     nc->suf = suf;
 46                     suf = nc;
 47                 }
 48                 nc->insert(1, str[s + 1]);
 49             } else s++;
 50             if(p <= s)
 51                 maintain();
 52         }
 53         
 54         void modify(int p, char x) {
 55             str[p] = x;
 56             maintain();
 57         }
 58         
 59         boolean full() {
 60             return s == cs;
 61         }
 62 }Chunk;
 63 
 64 Chunk pool[650];
 65 Chunk *top = pool;
 66 
 67  Chunk* Chunk::alloc() {
 68     return top++;
 69 }
 70 
 71 typedef pair<Chunk*, int> pci;
 72 #define fi first
 73 #define sc second
 74 
 75 int m;
 76 Chunk nsta = Chunk(&nsta, cs), nend = Chunk(&nend, cs);
 77 char str[100005]; 
 78 
 79 inline void init() {
 80     nsta.suf = &nend;
 81     powb[0] = 1;
 82     for(int i = 1; i <= 100002; i++)
 83         powb[i] = powb[i - 1] * base;
 84     memset(nend.psh, -1, sizeof(nend.psh));
 85     
 86     gets(str + 1);
 87     scanf("%d", &m);
 88     
 89     int fin = 1;
 90     Chunk* pc = &nsta, *nc;
 91     while(str[fin]) {
 92         nc = Chunk::alloc();
 93         nc->suf = pc->suf;
 94         pc->suf = nc;
 95         for(nc->s = 0; str[fin] && nc->s < cs; )
 96             nc->str[++nc->s] = str[fin++];
 97         nc->maintain();
 98         pc = nc;
 99     }
100 }
101 
102 pci findc(int pos) {
103     int skip = 0;
104     pci rt(nsta.suf, 0);
105     while(skip + rt.fi->s < pos) {
106         skip += rt.fi->s;
107         rt.fi = rt.fi->suf;
108     }
109     rt.sc = pos - skip;
110     return rt;
111 }
112 
113 int getHash(pci p, pci& nxt) {
114     int skip = 0, rt = 0;
115     rt = p.fi->ssh[p.sc];
116     skip = p.fi->s - p.sc + 1;
117     p.fi = p.fi->suf;
118     while(skip + p.fi->s < cs) {
119         rt += powb[skip] * p.fi->psh[p.fi->s];
120         skip += p.fi->s;
121         p.fi = p.fi->suf;
122     }
123     nxt = pci(p.fi, cs - skip + 1);
124     if(nxt.sc > nxt.fi->s) {
125         nxt.sc -= nxt.fi->s;
126         nxt.fi = nxt.fi->suf;
127     }
128     rt += powb[skip] * p.fi->psh[cs - skip];
129     return rt;
130 }
131 
132 void getnext(pci &p) {
133     if(p.sc == p.fi->s)
134         p.sc = 1, p.fi = p.fi->suf;
135     else
136         p.sc++;
137 }
138 
139 void debugout() {
140     Chunk* p = nsta.suf;
141     while(p != &nend) {
142         puts(p->str + 1);
143         p = p->suf;
144     }
145 }
146 
147 inline void solve() {
148     char buf[5];
149     int x, y, rt;
150     pci p1, p2, pn1, pn2;
151 //    debugout();
152     while(m--) {
153         scanf("%s%d", buf, &x);
154         if(buf[0] == \'Q\') {
155             scanf("%d", &y);
156             if(x != y) {
157                 rt = 0, p1 = findc(x), p2 = findc(y);
158                 while(getHash(p1, pn1) == getHash(p2, pn2))    p1 = pn1, p2 = pn2, rt += cs;
159                 while(p1.fi->str[p1.sc] == p2.fi->str[p2.sc]) {
160                     getnext(p1);
161                     getnext(p2);
162                     rt++;
163                 }
164             } else {
165                 p1 = findc(x);
166                 rt = p1.fi->s - p1.sc + 1;
167                 p1.fi = p1.fi->suf;
168                 while(p1.fi != &nend) {
169                     rt += p1.fi->s;
170                     p1.fi = p1.fi->suf;
171                 }
172             }
173             printf("%d\\n", rt);
174         } else if(buf[0] == \'R\') {
175             scanf("%s", buf);
176             p1 = findc(x);
177             p1.fi->modify(p1.sc, buf[0]);
178         } else {
179             scanf("%s", buf);
180             p2 = p1 = findc(x);
181             getnext(p1);
182             if(p1.fi != &nend)
183                 p1.fi->insert(p1.sc, buf[0]);
184             else
185                 p2.fi->insert(p2.sc + 1, buf[0]);
186         }
187     }
188 }
189 
190 int main() {
191     init();
192     solve();
193     return 0;
194 }

 

以上是关于【python】求两个字符串的公共字串?的主要内容,如果未能解决你的问题,请参考以下文章

bzoj1014 [JSOI2008]火星人

BZOJ1014 [JSOI2008]火星人

bzoj 1014 火星人prefix - 链表 - 分块

bzoj1014-JSOI2008 火星人prefix

BZOJ 1014 JSOI2008 火星人prefix

bzoj 1014: [JSOI2008]火星人prefix